Vous êtes sur la page 1sur 260

Zur Strukturierung von

einsprachigen und kontrastiven elektronischen Worterbuchern


Ulrich Heid
Institut fur maschinelle Sprachverarbeitung { Computerlinguistik {
der Universitat Stuttgart
Azenbergstr. 12
D 70174 Stuttgart
uli@ims.uni-stuttgart.de

Inhaltsverzeichnis

1 Einleitung

1.1 Problemstellung
1.1.1 Probleme der Lexikonstrukturierung
1.1.2 Rahmenbedingungen
1.1.3 Vorgehensweise
1.1.4 Struktur dieses Buchs
1.2 Einige Grundbegri e
1.2.1 Elektronische Worterbucher
1.2.2 Probleme der kontrastiven lexikalischen Beschreibung

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : :
: : : : : : : :

2 Lexikographische Aspekte

2.1 Multifunktionale Worterbucher


2.1.1 Begri sbestimmung: Wiederverwendbare lexikalische Ressourcen
2.1.2 Reinterpretierbarkeit lexikalischer Beschreibungen
2.2 Strukturierung zweisprachiger Worterbucher
2.2.1 Vorbemerkung: Deskription vs. Prasentation in der Lexikographie
2.2.2 Direktionale vs. Nicht-direktionale zweisprachige Worterbucher
2.2.3 Die Strukturierung der Van Dale-Worterbucher
2.3 Lexikographische Anforderungsde nition
2.4 Exkurs: Metalexikographie vs. Worterbuch-Design

1
3
4
5
6
7
7
14

19

: : : : : : : : : : : : : : : : : : : : : : : :
: :

: : : : : : : : : :

: : : : : : : : : : : : : : : : :
:

: : :

: : : : : : : : : : :

: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : :

3 Constraint-basierte Worterbucher

3.1 Der TFS-Formalismus


3.1.1 Datentyp von TFS
3.1.2 Eigenschaften aus dem objektorientierten Paradigma: Relevanz fur
die lexikalische Reprasentation
3.1.3 Eigenschaften aus dem constraint-basierten Paradigma: Relevanz
fur die Erstellung von (lexikalischen) Spezi kationen
3.1.4 Das Lexikon als Spezi kation: Vorteile und Probleme bei der Verwendung von TFS fur die lexikalische Modellierung
3.2 Worterbucharchitektur
3.2.1 U berblick
3.2.2 Klassi katorische und strati kationelle Worterbucher
3.2.3 Modularitat und Interaktion der Module
3.2.4 Dokumentation der lexikalischen Beschreibungen
3.2.5 Zugri sneutralitat
3.2.6 Vergleich der Spezi kation mit der Anforderungsde nition

: : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : :

19
19
27
42
42
44
53
65
68

71

71
72

: : : : : : : : : : : : : : : : : : : : :

73

: : : : : : : :

82

: : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : :

: : : : : : : : : : : : : : :
: : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : :

4 Einsprachige Worterbucher

4.1 Bausteine der Eintrage


4.2 Beschreibung mit Frame-Semantics
4.2.1 Semantische Rollen fur das Wahrnehmungsszenarium
4.2.2 Sorten
4.2.3 Rollenkonstellationen
4.3 Syntaktische Beschreibung
4.3.1 Grammatische Funktionen

84
89
89
90
92
94
95
98

99

: : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : :
: : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :

99
101
102
106
108
115
116

4.3.2 Syntaktische Kategorien


4.3.3 Abbildungen zwischen grammatischen Funktionen und syntaktischen
Kategorien
4.3.4 Ableitbarkeit von Lexikoneintragen fur LFG und HPSG aus DELISEintragen
4.4 Abbildungen zwischen den Beschreibungsebenen
4.5 Zur U bertragbarkeit des Ansatzes
4.5.1 Fragment
4.5.2 Lexikalisch-semantische Beschreibung
4.5.3 Syntaktische Beschreibung
4.5.4 Abbildungen zwischen den Beschreibungsebenen
4.6 Probleme der Lexikonmodellierung
4.6.1 Typen vs. Features
4.6.2 Klassi kation von Beschreibungsmitteln vs. Klassi kation von lexikalischen Objekten: Rollen vs. Sorten
4.6.3 Subklassi zierung nach zusatzlichen Merkmalen?

: : : : : : : : : : : : : : : : : : : : : : : :

119

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :

122

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : :
: : : : : : : : : :

5 Abfrage

123
124
128
128
129
130
132
135
135
137
139

145

5.1 Ad-hoc-Abfrage im TFS-Lexikon


146
5.1.1 Ad-hoc-Abfrage in strati kationellen Lexika
146
5.1.2 Ad-hoc-Abfrage mit Variablen
148
5.1.3 Nutzung der Ad-hoc-Abfrage in Worterbuchanwendungen { Vergleich mit Datenbanken
152
5.2 Anwendung: Lexikonexport
155
5.2.1 Auswahl des zu exportierenden Teilfragments mit Ad-hoc-Abfrage 156
5.2.2 Prasentation der Information fur Zielanwendungen
159
5.2.3 Ablaufschema des Worterbuchexports
162

5.2.4 Robustheit des Exports gegenuber Anderungen des Lexikons
165
5.2.5 Eine Anwendung des Lexikonexports: Lexikongesteuerte Corpussuche165
5.3 Diskussion: Abfragemethoden
167
5.3.1 Interpretation der Hierarchie unter der Open World Assumption vs.
Closed World Assumption
168
5.3.2 \Lexikographische" Anfrage vs. Benutzung von Lexikoneintragen in
einem NLP-System
170
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : :
:

: : : : : : : : :

: : : : : : : : : : : : : : : : :
: : : :

: : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : :

6 Kontrastive Worterbucher

6.1 Klassi zierung von U bersetzungsproblemen


6.1.1 Motivation fur die Einfuhrung einer Problemklassi kation
6.1.2 Ansatze zur Klassi kation von kontrastiven Problemen in der Forschung zur maschinellen U bersetzung
6.1.3 Neuere Ansatze zur Klassi kation von U bersetzungsproblemen: Divergenzen vs. Mismatches
6.2 Klassi kationsvorschlag
6.3 Beispieldiskussion
6.3.1 Subkategorisierungsunterschiede: \syntaktische Divergenz"
6.3.2 Thematische Divergenz und Syntax-Semantik-Interaktion

: : : : : : : : : : : : : : : : : :
: : : : : :

: : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : :

: : : : : :

179

180
180

183
186
194
197
197
201

6.3.3 \Inkorporation" von Argumenten und Adjunkten: \con ational"


und \lexical" divergence
6.3.4 Divergenzen mit Auswirkungen auf das zu ubersetzende Lexem
6.3.5 Head Switching: \demotional/promotional divergence"
6.3.6 Divergenzen mit Auswirkung auf das zu ubersetzende Lexem und
auf die syntagmatische Umgebung
6.4 Worterbucher fur maschinelle U bersetzung
6.4.1 Monolinguale und kontrastive Subkategorisierungsklassen in einem
transferbasierten MU -Worterbuch auf der Grundlage von LFG
6.4.2 Behandlung von Divergenz in einem HPSG-basierten InterlinguaAnsatz
6.5 Kontrastive constraint-basierte Worterbucher
6.5.1 Kontrastives Fragment
6.5.2 Die TFS-Kodierung des kontrastiven Vergleichs von Frame Semantics-Beschreibungen
6.5.3 Die Behandlung von kontrastiven Problemen im DELIS-Fragment
6.5.4 Lexikographische Anwendung

: : : : : : : : : : : : : : : : : : : : : : : :
: :

: : : : : : :

: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : :

: : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : :
:

: : : : : : : : : : : : : : : : : : : : :

7 Zusammenfassungen

7.1 Deutsche Zusammenfassung


7.2 Resume Francais
7.3 English Summary

214
214
215
218
222
222
223
225
227

233
: : : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :

Literatur

206
209
212

:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

233
237
242

247

Vorwort

Dieses Buch richtet sich an Computerlinguisten, Lexikographen und Metalexikographen.


Es versucht einige Prinzipien aufzuzeigen, nach denen elektronische monolinguale und
kontrastive Worterbucher strukturiert sein sollten, wenn sie fur verschiedene Anwendungen, in Computerlinguistik und Lexikographie, benutzbar sein sollen.
Probleme der Worterbuchstrukturierung wurden seit langerer Zeit sowohl in der Metalexikographie, als auch in der Computerlinguistik und ihrer sich neu entwickelnden
Teildisziplin, der \Computational Lexicography", diskutiert; es scheint aber, als hatte es
bislang wenig Austausch zwischen den beiden Bereichen gegeben. Und dies, obwohl sich
aus den Erfahrungen metalexikographischer Worterbuchanalysen durchaus Zielsetzungen
fur eine computerlinguistische Worterbucharchitektur gewinnen lassen, und obwohl umgekehrt der computerlinguistische Blick auf bestehende Worterbucher die metalexikographische Sicht und bestehende Ansatze zur Worterbuchklassi kation erweitern kann. Ein
Teil der hier gefuhrten Diskussion versucht, diese Art von Austausch voranzutreiben:
auf der Grundlage von Erfahrungen aus computerlinguistischen und metalexikographischen Worterbuchanalysen werden Vorschlage fur die Architektur elektronischer Lexika
entwickelt. Zu ihren Merkmalen gehoren Modularisierung, Verzicht auf fest vorgegebene
Zugri sstrukturen und eine einheitliche Reprasentation von linguistischen Beschreibungen
verschiedener Ebenen.
Die vorgeschlagene Architektur wurde in einer Reihe von Worterbuchfragmenten prototypisch realisiert: ein Constraint-Logik-Formalismus (hier wurde TFS, Typed Feature
Structures, verwendet), erlaubt die Umsetzung der Architekturprinzipien in einfacher Weise. Anhand von Beispielen aus der Arbeit im europaischen Forschungsprojekt DELIS wird
gezeigt, welche Vorteile sich aus dem Ansatz fur die Abfrage, den Export und die Wiederverwendung lexikalischer Beschreibungen ergeben und wie einsprachige Fragmente aus
kontrastiver Sicht kombiniert werden konnen.
Der computerlinguistische Anwendungskontext, vor dessen Hintergrund die hier zusammengestellten Vorschlage fur kontrastive Lexika zu sehen sind, ist die (interlinguaorientierte) maschinelle U bersetzung. Die kontrastive Anwendung wird aber eher als Validierung der Worterbucharchitektur verstanden, nicht als Selbstzweck.
Ich mochte an dieser Stelle allen danken, die an der Entstehung dieses Buches beteiligt waren: vor allem Prof. Christian Rohrer, der die hier beschriebenen Arbeiten angeregt
und mit konstruktiver Kritik begleitet hat, Prof. Franz Josef Hausmann, der meine Begeisterung fur Worterbucher geweckt und unterstutzt hat, und, nicht zuletzt, meinen
Stuttgarter Kollegen und den auswartigen Kooperationspartnern der Projekte Eurotra-7
und DELIS, die stets zu Diskussionen, Kommentaren, Fragen und Vorschlagen bereit waren. Besonders danken mochte ich Regina Steding: ohne sie wurde dieses Buch nicht in
dieser Form vorliegen.
Stuttgart, im April 1996
Ulrich Heid

Kapitel 1
Einleitung
1.1 Problemstellung
Die Bedeutung von lexikalischen Beschreibungen fur sprachverarbeitende Systeme steht
auer Frage. Worterbucher1 sind eine der zentralen linguistischen Wissensquellen dieser Systeme, und Fragen der praktischen Realisierung von elektronischen Worterbuchern
sind in den letzten Jahren zunehmend ins Zentrum des Interesses geruckt. Hierzu gehoren
die Diskussion um Moglichkeiten der Wiederverwertung von bestehenden Worterbuchern,
Forschungen zur lexikalischen Akquisition, zum Beispiel auf der Grundlage von Textcorpora, sowie U berlegungen zur parallelen Nutzbarmachung von lexikalischen Beschreiungen
aus der lexikographischen Arbeit fur manuelle und maschinelle Konsultation.
Obwohl das Interesse an Worterbuchern in der maschinellen Sprachverarbeitung in
der Zeit seit ca. 1985 stark zugenommen hat, gibt es nach wie vor relativ wenig Forschungsarbeiten, die sich mit der Strukturierung von Worterbuchern befassen, mit Fragen der Organisation und Reprasentation lexikalischer Informationen, sozusagen der \Systemarchitektur" von Worterbuchern. Solche Fragestellungen werden jedoch dann relevant, wenn es um die Realisierung konkreter sprachverarbeitender Systeme geht, um ihre
Wartung, Erweiterung, Anpassung an neue Anwendungs- und Gegenstandsbereiche. Ein
Forschungsgebiet, wo sich dieses De zit besonders bemerkbar macht, ist die maschinelle
U bersetzung. Dabei ist die maschinelle U bersetzung gleichzeitig eine derjenigen Anwendungen von Sprachverarbeitungskomponenten, die die komplexesten Anforderungen an
die lexikalische Beschreibung und Reprasentation stellen.
Viele Autoren, die uber maschinelle U bersetzungssysteme schreiben, gehen nicht oder
nicht sehr ausfuhrlich auf die lexikalischen Ressourcen ein, die den betre enden Systemen
zugrundeliegen. Wenn die Worterbucher diskutiert werden, dann in der Regel im Zusammenhang mit der Systemarchitektur, als Komponenten der Wissensquellen, auf welche das
System bei der U bersetzung in irgendeiner Weise zuruckgreift. Details uber den Aufbau
und Organisation der Worterbucher werden jedoch oftmals nicht gegeben, oder es nden
sich lediglich Diskussionen einzelner U bersetzungsbeispiele, aus denen sich allenfalls mehr
oder weniger gut rekonstruieren lat, wie einzelne Worterbucheintrage eines gegebenen
Systems aussehen konnten.
Die Worterbucher eines sprachverarbeitenden Systems hangen naturlich eng mit dessen
Grammatiken zusammen. Wenn jedoch ein (umfangreiches) Worterbuch fur verschiedene Anwendungen eingesetzt werden soll, die u.U. auf verschiedenen Grammatiken oder
Grammatiktheorien beruhen, dann kann die Frage der Worterbuchorganisation nicht einfach als Teilproblem der Grammatikentwicklung betrachtet werden. Vielmehr mu man
sich dann Gedanken uber \multifunktionale Worterbucher" machen, sowohl aus theoretischer Sicht, als auch aus praktischer. Die theoretische Diskussion hat in den spaten 80er
Jahren mit U berlegungen zu \reusable resources" begonnen (vgl. unten, Abschnitt 2.1.1
und den neuen Band von [Hotker/Ludewig (Ed.) 1996]). Die praktische Seite wird einer1 Die Termini Worterbuch und Lexikon werden hier synonym verwendet.

seits im Rahmen des \Linguistic Engineering" diskutiert, andererseits zum Teil schon seit
geraumer Zeit in der praktischen Lexikographie realisiert. Diese verschiedenen Aspekte und die Methoden und Verfahren von computerlinguistischer und lexikographischer,
bzw. metalexikographischer Arbeit scheinen bislang weitgehend getrennt verfolgt worden
zu sein: mindestens werden in Vero entlichungen aus der Computerlinguistik und Computational Lexicography relativ selten Ergebnisse der lexikographischen Arbeit und der
Metalexikographie aufgenommen und verarbeitet, und umgekehrt. Das vorliegende Buch
versucht, hier ansatzweise eine Brucke zu schlagen: wo immer moglich, wird die lexikographische Relevanz der vorgeschlagenen computerlinguistischen Modellierungen diskutiert,
und umgehrt wird zunachst untersucht, welche Ergebnisse aus der Lexikographie und
Metalexikographie fur die \Computational Lexicography" ausgenutzt werden konnen.
Fragen der Lexikonstrukturierung sind in der Computerlinguistik etwas detaillierter
diskutiert worden, seit sich Head-Driven Phrase Structure Grammar (HPSG, [Pollard/Sag
1994], [Pollard/Sag 1987]) als einer der wichtigsten Grammatikformalismen fur computerlinguistische Modellierungen etabliert hat. Die Zielsetzung von Arbeiten in diesem Rahmen war es, Generalisierungen im Lexikon in geeigneter Weise zu modellieren2. Andere
Arbeiten zur Organisation von Worterbuchern fur die Sprachverarbeitung konzentrieren
sich auf einzelne Teilbereiche der lexikalischen Beschreibung, z.B. Morphologie und Morphosyntax ([Domenig 1987], [Domenig 1989], [Domenig/ten Hacken 1992]), oder sie sind
starker an Fragen der Wissensreprasentation und der hierfur relevanten Formalismen interessiert (z.B. [Daelemans/Van der Linden 1992]). In der Lexikographie bzw. Metalexikographie wurde mit [DANLEX 1987] ein Vorschlag fur die Strukturierung von Worterbuchern
gemacht, der primar auf die (computergestutzte) Erstellung und auf die U berwachung
der Testgestalt (z.B. Eintragsmodelle) von Worterbuchern fur die interaktive Benutzung
(durch \menschliche" Benutzer) abzielt, nicht auf den Einbau in sprachverarbeitende Systeme.
In diesem Buch wird der Versuch unternommen, Vorschlage fur die Strukturierung
einsprachiger und zweisprachiger Worterbucher zu machen. Dabei werden U berlegungen
zur Wiederverwendung lexikalischer Information, insbesondere zur Gestaltung von \multifunktionalen" Worterbuchern, mit Vorschlagen zur formalen Modellierung einsprachiger Worterbucher und zur Strukturierung von kontrastiven lexikalischen Beschreibungen
fur maschinelle U bersetzung zusammengebracht. Den Rahmen fur die Spezi kation von
Architekturvorschlagen fur Worterbucher bilden constraint-basierte Formalismen zur Reprasentation linguistischen Wissens, wie sie unter anderem zur Kodierung von HPSGGrammatiken verwendet werden.3
2 Die Vorschlage zur Lexikonstrukturierung, die sich in [Pollard/Sag 1987] be nden, sind allerdings
in den wenigsten Grammatik-Systemen, die auf HPSG beruhen, implementiert, angewendet oder
erweitert worden. Der einzige groere Versuch in dieser Richtung seit der Arbeit von [Flickinger
1987] sind die Vorschlage von [San lippo 1993] zur Strukturierung der Worterbucher von Acquilex.
3 Einen U berblick uber constraint-basierte Formalismen, die zur Kodierung von linguistischem Wissen
benutzt werden, gibt der Sammelband [Uszkoreit (Ed.) 1993]. Dort ndet sich auch eine vergleichende
Bewertung der Formalismen. Da die vorliegenden U berlegungen in engem Kontakt mit Arbeiten zur
Entwicklung von TFS (Typed Feature Structure Formalismus, vgl. [Emele 1996]) entstanden ist, lag
es nahe, TFS als Beispielfall fur einen solchen Formalismus zu benutzen. Ich mochte Martin Emele in
diesem Zusammenhang fur viele sehr anregende Diskussionen und auch dafur herzlich danken, da er
mich an der Entwicklung von TFS aus der Nahe hat teilhaben lassen.

1.1.1 Probleme der Lexikonstrukturierung


Gut strukturierte Worterbucher sind fur Benutzer und Entwickler ubersichtlicher und
leichter erweiterbar. Auerdem sollte es eine geeignete Worterbucharchitektur erlauben,
sowohl monolinguale als auch kontrastive lexikalische Beschreibungen so zu strukturieren,
da bestimmte deskriptive Generalisierungen abgeleitet bzw. ohne Bedarf an zusatzlichen
Beschreibungen ausgedruckt werden konnen.
In der praktischen Lexikographie werden bestimmte Strukturierungsprinzipien mehr
oder weniger explizit schon seit langer Zeit eingehalten. Beispielsweise wird in den meisten Worterbuchern der Verbwortschatz in einige, allerdings sehr grobe syntaktische Klassen eingeteilt (z.B. transitive Verben, intransitive Verben, re exive Verben). In neueren
Worterbuchern gibt es hau g jeweils spezi sche Eintragsmuster fur die einzelnen Wortklassen. Eintrage zu Substantiven unterscheiden sich dann bereits in ihrer Struktur von
Eintragen zu Verben oder zu Prapositionen. Die praktische Lexiographie nutzt dazu bereits einige Hilfsmittel zur Worterbuchstrukturierung, z.B. Computerwerkzeuge zur Konsistenzkontrolle fur Artikelstrukturen. In diesem Buch soll gezeigt werden, welche weiteren Strukturierungs- und Kontrollmoglichkeiten sich ergeben, wenn z.B. die Eigenschaften
computerlinguistischer Formalismen ausgenutzt werden.
Auch fur zweisprachige Worterbucher wurden in der Lexikographie Strukturierungsvorschlage gemacht4 . Besonders interessant sind in diesem Zusammenhang die zweisprachigen Worterbucher des niederlandischen Verlags Van Dale: bei ihrer Entwicklung wurde
darauf geachtet, da einsprachige und zweisprachige Worterbucher aufeinander bezogen
(und im Idealfall voneinander abgeleitet) sind. Die Van Dale-Worterbucher werden unten
in Abschnitt 2.2.3 recht ausfuhrlich diskutiert: sie dienen als Modellfall lexikographischer
Strukturierungsprinzipien und gleichzeitig als metalexikographischer Bezugspunkt fur die
spatere Diskussion uber kontrastive Modellierungen fur die Sprachverarbeitung.
Die Vorschlage zur Worterbuchstrukturierung, die in diesem Buch gemacht werden,
zielen auf die Erstellung \multifunktionaler" lexikalischer Ressourcen ab. Idealerweise
sollen verschiedene Anwendungen von einem gemeinsamen Worterbuch versorgt werden;
es soll sowohl wie ein \traditionelles gedrucktes" Worterbuch benutzt werden konnen,
als auch in Systemen der maschinellen Sprachverarbeitung. Im Fall der zweisprachigen
Modellierungen sollten auch maschinelle U bersetzungssysteme mit Daten versorgt werden konnen, die auf unterschiedlichen Architekturen und (uni kationsbasierten) Grammatiktheorien aufsetzen. Eine empirische Klassi kation von lexikalischen U bersetzungsproblemen, die zunachst von den beobachteten Phanomenen ausgeht und zu einem System
\kontrastiver Klassen" im Lexikon fuhrt, eignet sich fur diese Aufgabe. Auf der Grundlage
fruherer Versuche zur Klassi kation von U bersetzungsproblemen aus der Forschung zur
maschinellen U bersetzung wird eine einfache kontrastive Problemklassi kation erarbeitet,
die relativ generelle Losungsansatze erlaubt, die ohne Zuhilfenahme weiterer Wissensquellen realisiert werden konnen (vgl. Abschnitt 6.3).
Die Forderung nach O enheit hinsichtlich verschiedener Zielanwendungen zieht eine
Reihe weiterer Anforderungen nach sich, die im Detail in Abschnitt 2.1 diskutiert und
in Abschnitt 2.3 zusammengefat werden. Hierzu gehort u.a. die Forderung nach einem
modularem Aufbau der Worterbucher. Teilbeschreibungen, beispielsweise von verschiedenen Sprachen oder von verschiedenen linguistischen Beschreibungsebenen, sollen separat
4 Vgl. die Diskussion der Zusammenhange von Datendeskription und lexikographischer Prasentation
unten in Abschnitt 2.2.1. Zur Prasentationsseite vgl. [Baunebjerg Hansen 1990].

gehalten und wo notig explizit miteinander verbunden werden. Damit wird verhindert,
da einerseits analoge Informationen uber verschiedene Stellen verteilt sind, andererseits
Informationen verschiedener Natur miteinander vermengt werden, wo dies nicht sinnvoll
ist. Ein weiteres Ziel in diesem Zusammenhang ist es, die Information von verschiedenen
linguistischen Beschreibungsebenen gleichrangig zu behandeln, also keiner linguistischen
Beschreibungsebene Prioritat uber die anderen einzuraumen. Diese Forderung ist in gewisser Weise von den Grundprinzipien von HPSG inspiriert: dort werden linguistische
Objekte (Zeichen) durch gleichberechtigte Teilbeschreibungen auf der Ebene der Orthographie, der Syntax, der Semantik und, ggf., der Pragmatik beschrieben. In Abschnitt 3.2
wird gezeigt, inwiefern sich ein solcher Ansatz fur ein Lexikonmodell eignet.

1.1.2 Rahmenbedingungen

Die oben vorgetragenen U berlegungen werden in diesem Buch anhand von Beispielen
diskutiert. Eine solche Diskussion ist zwangslau g auf bestimmte Einzelfalle und auf die
Beschreibung relativ kleiner Worterbuchfragmente angewiesen. Im Folgenden werden die
Rahmenbedingungen fur die Formalisierung, die behandelten Phanomene bzw. Worterbuchfragmente und eine Reihe weiterer Randbedingungen kurz zusammengestellt.
Fur die formale Modellierung der in diesem Buch beschriebenen Worterbuchfragmente
wird der TFS-Formalismus (Typed Feature Structures) verwendet. Die formalen Grundlagen von TFS und die Implementierung des hier benutzten TFS-Systems werden nicht
beschrieben: sie sind in [Emele 1996] detailliert dargestellt; dort nden sich auch Verweise auf die relevante Grundlagenliteratur. TFS wird stellvertretend fur die Klasse der
constraint-basierten Formalismen benutzt, die in den letzten Jahren in der Computerlinguistik zunehmend Verbreitung gefunden haben. Die Worterbuchorganisation ist jedoch
eine relativ neue Anwendung von TFS und von Constraint-Formalismen uberhaupt; auerdem geht es darum, die lexikographische Nutzbarkeit solcher Formalismen zu zeigen.
Daher ist es sinnvoll, informell und anhand von Beispielen aus dem Bereich der Worterbuchstrukturierung die relevanten Eigenschaften des TFS-Formalismus zu beschreiben
(vgl. Abschnitt 3.1). Im Hinblick auf die praktische Anwendung eines elektronischen Worterbuchs mu in diesem Zusammenhang aber nicht nur diskutiert werden, in welcher Weise
sich der Formalismus fur die Lexikonreprasentation und -strukturierung eignet, sondern es
mu auch dargestellt werden, wie ein elektronisches Worterbuch benutzt, d.h. interaktiv
abgefragt oder in eine Anwendung eingebunden werden kann. Diese Diskussion ndet sich
in Abschnitt 5.
Der Gegenstandsbereich, anhand dessen die Strukturierungsvorschlage illustriert werden, ist die Beschreibung von Verben, insbesondere der Verbsubkategorisierung; dieser
Bereich ist in Linguistik und Lexikographie gut untersucht und dokumentiert. Hierfur
werden Modellierungen zugrundegelegt, wie sie im Rahmen von HPSG und LexikalischFunktionaler Grammatik (LFG, vgl. [Dalrymple (Ed.) 1995]) vorgeschlagen werden. Diese
Grammatik-Formalismen werden als Hintergrund fur die Modellierung verwendet, jedoch
wird nicht der Versuch unternommen, samtliche Beschreibungen detailliert im Rahmen
der Theorien zu begrunden oder zu motivieren. Es geht auch nicht darum, neuartige
Beschreibungen fur die zur Diskussion stehenden Phanomene vorzuschlagen.
Das beschriebene Worterbuchfragment beruht auf Materialien aus dem DELIS-Projekt5 ;
5 DELIS steht fur \Descriptive Lexical Speci cation and tools for corpus-based lexicon building".
DELIS ist ein Forschungs- und Entwicklungsprojekt, das von der Europaischen Kommission im Rah-

die DELIS-Beschreibungen stellen genugend lexikalische Information bereit, als da LFGoder HPSG-Systeme damit versorgt werden konnten. Daruber hinaus wird in DELIS versucht, an die syntaktische eine lexikalisch-semantische Beschreibung anzuschlieen, die
den Prinzipien von Fillmores Frame Semantics folgt. Die Grundlagen hiervon werden
zusammen mit den Beispiel-Modellierungen in Kapitel 4 dargestellt6.
Die konkreten Worterbucheintrage, die in diesem Zusammenhang diskutiert werden,
stammen aus Fragmenten fur Verben der sinnlichen Wahrnehmung fur Englisch, Franzosisch, Italienisch, Danisch und Niederlandisch, die exemplarisch in TFS modelliert wurden.
Um die U bertragbarkeit der hier vorgeschlagenen Prinzipien zu uberprufen, wurden in DELIS auerdem Fragmente italienischer, englischer und niederlandischer Sprechaktverben
modelliert (vgl. Abschnitt 4.5).
Eine der wichtigsten Grundlagen fur die hier vorgeschlagene Strukturierung von einund zweisprachigen Worterbuchern und fur deren Verbindbarkeit untereinander stellt das
Vorliegen von parallelen Grammatiken und Lexika dar. Unter \parallelen" Fragmenten
werden hier linguistische Beschreibungen von Satzen verstanden, welche U bersetzungen
voneinander sind. Auerdem setzt die Erstellung paralleler Fragmente die Benutzung
desselben Grammatikformalismus bzw. desselben deskriptiven Ansatzes voraus: ein gemeinsames Inventar von Beschreibungsmitteln fur die verschiedenen einzelsprachlichen
Modellierungen wird de niert; dieses Inventar wird nur dann erweitert, wenn dies fur die
Beschreibung einzelsprachlicher idiosynkratischer Phanomene notwendig ist.

1.1.3 Vorgehensweise

Die Erstellung linguistischer Spezi kationen hat einige Gemeinsamkeiten mit der Entwicklung von Software. Wie oben angedeutet, fallen Teile der hier gefuhrten Diskussion
in den Bereich des \Linguistic Engineering". Dementsprechend ist es sinnvoll, wenn sich
auch die Arbeitsmethode an Vorgehensweisen aus dem Software-Engineering anlehnt.
Die vorliegende Studie orientiert sich an der Methode des \Rapid Prototyping". Im
Software-Engineering versteht man unter \Rapid Prototyping" eine Arbeitsmethode, bei
der zunachst eine Anforderungsanalyse erstellt wird, dann eine funktionale und spater formale oder technische Spezi kation der zu entwickelnden Programme. Zu einem moglichst
fruhen Zeitpunkt in der Softwareentwicklung soll eine erste Implementierung verfugbar
gemacht werden (ein Prototyp), welcher zu Testzwecken an die Benutzer gegeben wird.
men des Forschungsprogramms LRE (Linguistic Research and Engineering) im Zeitraum 1993{1995
gefordert wurde. An DELIS waren Computerlinguisten (Universitaten Pisa, Clermont-Ferrrand, Amsterdam und Kopenhagen), Worterbuchverlage bzw. -herausgeber (Van Dale; Den Danske Ordbog,
Kopenhagen; Oxford University Press), sowie ein Software- und Beratungsunternehmen (Site, Paris;
Lingsoft, Helsinki, Linguacubun, London) beteiligt. Der Autor war Vertreter der Universitat Stuttgart
in DELIS und Projektkoordinator.
6 Dies ist, soweit sich absehen lat, die erste constraint-basierte Modellierung von Lexikonfragmenten auf
der Grundlage von Frame Semantics. Wie LFG und HPSG hier als deskriptiver Hintergrund verstanden werden (und auf theorie-interne Diskussionen uber die syntaktische Modellierung von Einzelfallen
verzichtet wird), dient auch Frame Semantics hier als ein Beispielfall fur einen Beschreibungsansatz:
Fillmores Theorie wird in diesem Buch nicht erweitert, sondern primar als Beispiel fur ein lexikalischsemantisches Beschreibungsmodell genommen, welches lexikographisch relevant ist (vgl. die Arbeiten
von [Fillmore/Atkins 1994], [Atkins 1994], [Atkins et. al. 1994], usw.), weil es eine prazise, corpusbasierte lexikalische Beschreibung unterstutzt, und weil es die Zusammenhange von syntaktischer und
semantischer Beschreibung explizit macht. Es geht also nicht darum, die deskriptiven Entscheidungen
von Frame Semantics zu rechtfertigen oder gegen andere Beschreibungen abzusetzen.

Das Feedback, welches aus den Tests dieser ersten Implementierung gewonnen wird, iet
in eine Verfeinerung der Spezi kationen und der Implementierung zuruck. Dieser Vorgang
wird als \Prototyping cycle" bezeichnet.
Man kann sich fragen, inwiefern ein solches Vorgehen fur die Entwicklung einer Worterbucharchitektur, bzw. von lexikalischen Spezi kationen moglich und nutzlich ist. Hier
wird die These vertreten, da es gerade bei der Entwicklung von Worterbuchfragmenten
notwendig ist, Anforderungen der Benutzer und Anforderungen, die sich aus den Daten ergeben (z.B. von Texten aus Textcorpora, welche durch ein Worterbuch abgedeckt werden
sollen), bei der Entwicklung zu berucksichtigen. Je fruher im Laufe der Lexikonentwicklung Beispielfragmente verfugbar sind, desto fruher und ezienter kann die Entwicklung
beein ut werden. Fur den (corpusbasierten) Aufbau von Worterbuchfragmenten wird
dieses Konzept detaillierter in Abschnitt 2.1.1.3 diskutiert.
Zum Teil richtet sich die Prasentation der Architekturvorschlage in diesem Buch ebenfalls nach den Hauptphasen des Prototyping-Zyklus: aus der Diskussion der lexikographischen Praxis (in Kapitel 2) wird eine Anforderungsde nition abgleitet. Nach der Darstellung des TFS-Formalismus, der als Modellierungshilfsmittel dient, wird eine (funktionale)
Spezi kation7 gegeben (Abschnitt 3.2), die daraufhin uberpruft wird, welche Aspekte
der Anforderungsde nition sie erfat. Beispielimplementierungen werden in der Form von
monolingualen Lexikonfragmenten (in Kapitel 4) dargestellt, und ihre Benutzung in verschiedenen Anwendungen wird diskutiert, z.B. beim Lexikonexport und bei der lexikongesteuerten Corpusanalyse bzw. der Validierung des Lexikons anhand von Corpusmaterial
(Kapitel 5).
Um Redundanz zu vermeiden, sind allerdings nicht alle Phasen des Prototyping hier
separat dokumentiert worden: die Testphase, das sich hieraus ergebende Feedback und
die Verbesserungen sind naturlich in die Beschreibung von Spezi kation und Realisierung
eingebunden.
Ein Groteil der Diskussion in diesem Buch bezieht sich auf einsprachige Beschreibungen: erst auf der Grundlage wohlstrukturierter monolingualer Beschreibungen lassen sich
kontrastive Beschreibungen organisieren.

1.1.4 Struktur dieses Buchs


Kapitel 2 beschreibt lexikographische und metalexikographische Aspekte der Worterbuchstrukturierung und fuhrt so aus praktischer Sicht auf die Anforderungsanalyse hin
(Abschnitt 2.1). Kapitel 3 ist dem Reprasentationsformalismus TFS, seinen Eigenschaften und seiner Benutzung fur lexikalische Modellierung und Abfrage gewidmet8; es enthalt
auerdem die funktionale Spezi kation der vorgeschlagenen Worterbucharchitektur (Abschnitt 3.2). Dem folgt eine Diskussion monolingualer lexikalischer Spezi kationen, wie sie
fur die Zwecke von DELIS de niert wurden (vgl. Kapitel 4), d.h. eine Beschreibung der
\Implementierung" anhand von Beispielen. In Kapitel 5 werden Probleme der Abfrage und
7 Eine formale De nition, z.B. in Backus-Naur-Form, wird nicht gegeben. Sie konnte jedoch auch als
externe Schema-De nition, wiederum im hier verwendeten Formalismus, angegeben werden. Vgl. dazu die Diskussion in [Emele/Heid 1993], wo gezeigt wird, wie eine formale Meta-Schema-De nition,
eine Schema-De nition und die lexikalischen Klassen- und Instanzen-De nitionen fur die Worterbuchfragmente von DELIS formuliert werden konnen, und wie die verschiedenen De nitionsebenen
zusammenhangen.
8 Computerlinguisten, die im constraint-basierten Paradigma arbeiten, konnen Abschnitt 3.1 ohne Informationsverlust uberschlagen.

der Anwendung constraint-basierter Lexika besprochen. Dabei werden bewut zum Teil
auch Beispiele diskutiert, die uber die in Kapitel 4 vorgestellten Phanomene hinausgehen.
In Kapitel 6 werden Moglichkeiten der Strukturierung von kontrastiven Beschreibungen
diskutiert. Zunachst werden empirisch Klassi kationen von kontrastiven lexikalischen Problemen vorgestellt, dann wird gezeigt, wie sich diese in der maschinellen U bersetzung und
in der Lexikographie benutzen lassen.
Man kann auch Teile dieses Buchs selektiv lesen und nur bestimmte Themen verfolgen.
Die Diskussion allgemeiner Aspekte der Worterbucharchitektur verteilt sich in folgender
Weise: in Abschnitt 2.1 werden Probleme der Wiederverwendung lexikalischer Information
und damit eine der zentralen Anforderungen an die zu erstellenden Worterbuchkonzepte
untersucht. Zusammen mit den Resultaten einer Diskussion der Besonderheiten, welche
bei zweisprachigen Worterbuchern hinzutreten, ieen die in Abschnitt 2.1 zusammengestellten Aspekte in die Anforderungsde nition in Abschnitt 2.3 ein. Die funktionale Spezi kation der allgemeinen Architekturprinzipien erfolgt in Abschnitt 3.2. Aus der Sicht
der Anwendung werden Moglichkeiten der Abfrage der so reprasentierten lexikalischen
Information in Kapitel 5 diskutiert.
Die kontrastiven Aspekte hangen, wie oben angedeutet, mit den allgemeinen Fragen
der Lexikonarchitektur und mit den monolingualen Worterbuchfragmenten eng zusammen. Ein U berblick uber die lexikographische Praxis wird in Abschnitt 2.2 gegeben. Die
Resultate einer vergleichenden Bewertung der lexikographischen Ansatze ieen in die
Anforderungsde nition in Abschnitt 2.3 ein. In Abschnitt 6.1 werden bestehende Vorschlage zur Klassi zierung lexikalischer U bersetzungsprobleme diskutiert, die eine weitere
Grundlage fur die Organisation zweisprachiger Worterbucher darstellen. Beispiele fur Implementierungen, die aufgrund dieser Klassi kation entwickelt werden konnen, sind in den
Abschnitten 6.4 und 6.5 angegeben.
Die Frage der Wiederverwendbarkeit der lexikalischen Beschreibungen zieht sich ebenfalls als \Leitmotiv" durch dieses Buch. Abschnitt 2.1 ist dieser Problematik gewidmet.
Arbeiten aus der praktischen Lexikographie, die zu \wiederverwendbaren" zweisprachigen
Worterbuchern fuhren, werden in Abschnitt 2.2 vorgestellt. Praktische Vorschlage fur den
\Worterbuchexport" und fur vergleichbare Anwendungen werden in Abschnitt 5 diskutiert. Fur zweisprachige Worterbucher wird in Abschnitt 6.4 auf Moglichkeiten hingeweisen, wie eine allgemeine Phanomenklassi kation sowohl als Grundlage fur transfer-basierte
Systeme, als auch fur den Interlingua-Ansatz dienen kann.

1.2 Einige Grundbegri e


1.2.1 Elektronische Worterbucher
Bevor Vorschlage fur die Strukturierung von elektronischen Worterbuchern diskutiert werden konnen, mu hier zunachst der Begri \elektronisches Worterbuch" selbst etwas naher
betrachtet werden. Der Begri des \elektronischen Worterbuchs" ist in den letzten Jahren
als Oberbegri fur ganz verschiedene Produkte und Resultate von Forschungs- und Entwicklungsarbeit benutzt worden, und die Worterbucher eines groen maschinellen U bersetzungssystems, werden zum Teil ebenso als \elektronische Worterbucher" bezeichnet,
wie die von verschiedenen Unternehmen angebotenen Produkte im Taschenrechnerformat,
die den Wortschatz eines Reiseworterbuchs in einem Display anzeigen konnen.
Auch in der Diskussion in der Computerlinguistik bzw. Computational Lexicography

wird der Terminus mitunter unscharf verwendet. Dort wird neben dem \electronic dictionary" auch von \lexical databases", \machine readable dictionaries" und \arti cial
intelligence lexicons" gesprochen, z.B. bei [Zampolli 1994] und [Atkins/Levin/Zampolli
1994].
Die Termini heben technische Kriterien (databases) hervor, oder den Zusammenhang
mit Ressourcen in einem anderen Format (\machine readable dictionary": meint die in
irgendeiner Form als Textdateien zur Verfugung gestellte Version eines gedruckten Worterbuchs, in der Regel aus dem Satzband hergeleitet). Solche eher intuitiven Klassi zierungen
geben eigentlich keinen Aufschlu uber relevante Eigenschaften der jeweiligen Ressourcen,
und eine etwas prazisere Beschreibung ist notwendig.
Im Bereich der elektronischen Worterbucher gibt es bislang noch keine eindeutig de nierte Terminologie. Aus diesem Grund ist es sinnvoll, einige Charakteristika von elektronischen Worterbuchern im folgenden kurz zu diskutieren. Hieraus ergibt sich eine Reihe
von Parametern, nach denen elektronische Worterbucher beschrieben werden konnen.

1.2.1.1 Parameter der Beschreibung elektronischer Worterbucher {


U berblick
Den ersten Versuch einer Klassi kation elektronischer Worterbucher, die uber die oben genannten \Etiketten" hinausgeht, haben [Martin/Woltering 1989] unternommen. Das Ziel
ihrer Typologie elektronischer Worterbucher ist eine \globale" Beschreibung des Stands
von Wissenschaft und Technik in diesem Bereich; Martin/Woltering verwenden eine Reihe
von Parametern, entlang derer sie die in ihrem Forschungsuberblick zusammengestellten
elektronischen Worterbucher beschreiben und klassi zieren. Martin/Woltering streben
keine vollstandige und strikte Klassi kation an:
 Physikalische Form der Ressource;
 Grad der Formalisierung von Bedeutungsbeschreibungen;
 Zusammenhang mit anderen Ressourcen oder mit Computerwerkzeugen;
 Anwendungsorientierung der semantischen Beschreibung;
 Anwesenheit bzw. Abwesenheit von extralinguistischen Beschreibungen, wie beispielsweise domanenspezi scher Information.
Die prominentesten Klassen von elektronischen Worterbuchern, die anhand dieser Beschreibungsparameter von [Martin/Woltering 1989] identi ziert werden, sind folgende9:
 Papierworterb
ucher;
 \computer based dictionaries";
 \machine readable dictionaries";
 Lexikalische Datenbanken und Termbanken;
 \machine dictionaries";
9 Einige werden bewut im englischen Original-Wortlaut zitiert, weil eine U bersetzung u.U. interpretierenden Charakter hatte.

\lexical databases";
 \Arti cial Intelligence lexicons".
Die von Martin/Woltering identi zierten prominenten Beispielfalle fur Worterbucher und
die Kriterien zeigen, da die in [Martin/Woltering 1989] beschriebene Klassi kation speziell im Hinblick auf die Untersuchung der semantischen Beschreibungen in elektronischen
Worterbuchern unternommen worden ist. Sie ist fur unsere Zwecke nicht allgemein genug.
Obwohl naturlich jede Klassi kation fur einen speziellen Zweck durchgefuhrt wird, und
obwohl insofern jede Typologie die Aspekte wiederspiegelt, die fur die jeweilige Zielsetzung
als besonders relevant erachtet werden, kann man doch versuchen, elektronische linguistische Ressourcen etwas genereller zu beschreiben. Der Zweck unseres Klassi kationsversuchs ist es, die wichtigsten Aspekte der Form der Worterbucher (Reprasentationsformalismus, Strukturierung, Organisation usw.), ihres Inhalts (Mikro- und Makrostruktur),
sowie des Zusammenhangs zwischen beiden deutlich zu machen.
Dazu werden die folgenden Beschreibungskriterien (wiederum, wie bei [Martin/Woltering 1989], als nicht-ausschlieliche Parameter) benutzt:
 Die Anwendungsorientierung der Ressource: Antwort auf die Frage, ob die Ressource
fur eine bestimmte Art von Anwendung (interaktiv oder automatisch) konzipiert ist,
oder ob sie in dem Sinne \multifunktional" ist, da sie verschiedene lexikographische
und/oder verschiedene NLP-Anwendungen versorgt oder versorgen soll.
 Eine inhaltliche Beschreibung der Ressource: hinsichtlich Makrostruktur, Mikrostruktur, Umfang der Ressource und theoretischer Fundierung der Beschreibungen.
 Die formale Organisation der Ressource: Zusammenhange zwischen deskriptiver Seite und Reprasentationsseite; Dokumentation.
 Technische Eigenschaften der Ressource: hinsichtlich Reprasentationsformat oder
-formalismus, Speichermedium, zugrundeliegender Software usw.).
 Zusammenhang der zu beschreibenden Ressource mit anderen, gedruckten oder elektronisch reprasentierten Ressourcen.
Diese sehr allgemeinen Beschreibungskriterien sind in ahnlicher Weise fur die Zwecke
der Eurotra-7-Studie (vgl. [Heid/McNaught 1991]) und, darauf aufbauend, fur die
Relator-Studie zu linguistischen Ressourcen10 ([Hinkelman (Ed.) 1995]) benutzt worden11 .
Im Falle der beiden genannten Studien kommen zusatzliche, nicht-linguistische Angaben


10 Relator ist eine von der Europaischen Kommission, Luxenburg, DG XIII E4, im Rahmen des
LRE-2-Programms in Auftrag gegebene Studie uber die Moglichkeit der Realisierung einer zentralen
europaischen Institution fur die Katalogisierung und den Vertrieb linguistischer Ressourcen (LRE62.056). Das Projekt (12-1993 bis 08-1995) hat zur Errichtung der European Linguistic Resources
Association, ELRA, gefuhrt, die, 1995 gegrundet, von 1996 an eine dem Linguistic Data Consortium, LDC, in den USA vergleichbare Rolle ubernehmen soll. Relator hat einen ersten Katalog von
linguistischen Ressourcen produziert; ELRA soll diese Arbeit weiterfuhren.
11 Die allgemeinen Beschreibungsparameter wurden fur die Zwecke von Relator so weitgehend generalisiert, da sie auf alle Arten von Ressourcen (Textcorpora, Worterbucher, Speech-Samples, Grammatiken, Werkzeuge) angewendet werden konnten. Die speziellere Typologie der elektronischen Worterbucher wurde vom Autor fur die Zwecke von Eurotra-7 entwickelt und dann fur Relator
weitergefuhrt. Sie wurde auch im Projekt Multilex nahezu unverandert ubernommen. Die Nahe

hinzu, wie beispielsweise Information uber Eigentumsrechte, Verfugbarkeit, und uber die
Autoren der betre enden Ressourcen.
In Abbildung 1.1 sind die wichtigsten Kriterien zusammengestellt, nach denen im
Rahmen von Relator elektronische Worterbucher beschrieben wurden.

1.2.1.2 Typen elektronischer Worterbucher { gemeinsame Eigenschaften

Fur jeden der oben angegebenen Beschreibungsparameter werden im Folgenden jeweils


einige relevante Merkmale angegeben.
Anwendungsorientierung: die Anwendungsorientierung eines Worterbuchs bezeichnet
die angestrebte hauptsachliche Benutzung, die der Worterbuchentwickler fur das Worterbuch vorsieht. Auf einer obersten Ebene sollte zwischen \multifunktional" konzipierten
Ressourcen und anwendungsspezi schen Ressourcen unterschieden werden12 .
Gleichzeitig sollte mindestens zwischen dreierlei moglichen Anwendungssituationen unterschieden werden:
 Benutzung der lexikalischen Ressource als gedrucktes Worterbuch; das Worterbuch
liegt daneben \maschinenlesbar" vor;
 Benutzung der Ressource als interaktiv benutztes elektronisch reprasentiertes Worterbuch (\Lookup-Worterbucher");
 Benutzung der Ressource in einem sprachverarbeitenden System, normalerweise
vollautomatisch und ohne interaktiven Zugri .
Inhaltliche Beschreibung: wie bei gedruckten Worterbuchern sind makrostrukturelle und
mikrostrukturelle Aspekte zu unterscheiden.
 Makrostrukturelle Kriterien:
{ behandelte Sprache bzw. Sprachen; Sprachrichtung im Falle von U bersetzungsworterbuchern; behandeltes (Fachsprachen-)Fragment;
{ Lemmabestand: Umfang der Makrostruktur;
{ Lemmaselektion und Kriterien fur Lemmastatus linguistischer Objekte (welche
linguistischen Objekte haben Lemmastatus, welche konnen einzeln abgefragt
werden: z.B., neben den ublichen Lemmata, auch ektierte Formen, MehrwortEinheiten, Morpheme, Abkurzungen etc.);
{ Organisation und Gruppierung der Artikel: z.B. semasiologische vs. onomasiologische Worterbuchorganisation.
zu metalexikographischen Ansatzen zur Beschreibung von Worterbuchern ist deutlich. Die hier beschriebene Kriterienliste wurde im Zusammenhang der Eurotra-7-Studie auf rund 30 elektronische
lexikalische Ressourcen des Deutschen und ungefahr 100 weitere elektronische Worterbucher verschiedener anderer europaischer Sprachen angewendet und hat sich als ausreichend hierfur erwiesen.
Im Fall der Eurotra-7-Studie wurden sehr detaillierte Beschreibungen von einzelnen prominenten
Ressourcen fur sechs europaische Sprachen angefertigt (pro Ressource ca. 3-4 Seiten Text mit zusammenfassender Tabelle und einzelnen Beispielen aus der Benutzung der jeweiligen Worterbucher); im
Rahmen von Relator wurde lediglich ein allgemeiner U berblick uber die Situation fur die wichtigsten
europaischen Sprachen angefertigt.
12 Vgl. die detaillierte Diskussion uber wiederverwendbare lexikalische Beschreibungen und multifunktionale Worterbucher in Abschnitt 2.1.1.

MRD version of human use dict.


Look-up dict. for human use
Application
NLP system dict.
other
Items with lemma status
Macrostructure

Grouping of lemmas
Fragment covered

Content
Levels described
Microstructure

Elementary units per level


underlying approach
markup, repres. language
(cf. Microstr./Macrostr.)

Explicit

Representation

Consistency of markup
(checking possibilities)
assessment of transformability
lexicographic conventions

Implicit
internal structure of entires
Storage
Technical

Representation language
(formal aspects)
Interfaces and integratability
(cf. usage context)
derived from other source(s)

Relationships
not derived
legal aspects
Availability

cost of resource
cost of use/adaptation

Abbildung 1.1: Schema der Parameter zur Beschreibung elektronischer Worterbucher


(nach Eurotra-7 und Relator)

Mikrostrukturelle Kriterien: zu den mikrostrukturellen Kriterien gehort das Inventar der linguistischen Beschreibungsebenen, zu denen das Worterbuch Informationen enthalt, eine Beschreibung der zugrundeliegenden linguistischen Theorie bzw.
des Beschreibungsansatzes (z.B. bei Instruktionsbuchern von gedruckten Worterbuchern), sowie eine Beschreibung der benutzten linguistisch-lexikographischen Beschreibungsmittel und ihrer Dokumentation13.
Wie in der traditionellen (meta)lexikographischen Beschreibung, werden folgende
linguistische Beschreibungsebenen unterschieden, fur die in einem elektronischen
Worterbuch Angaben vorhanden sein konnen:
{ Orthographische Beschreibung (mit Beschreibung von orthographischen Varianten, Trennmoglichkeiten usw.);
{ Phonetisch-phonologische Beschreibung (Angabe der Lautgestalt);
{ Morphologische und morphosyntaktische Beschreibung (morphosyntaktische
Eigenschaften von Wortformen, eventuell Zusammenhange mit (moglicherweise
Worterbuch-externen) Morphologie-Systemen bzw. Klassi zierungen des Flexionsverhaltens);
{ Syntaktische Beschreibung auf der kategorialen bzw. phrasenstrukturellen Ebene (Klassi kation des zu beschreibenden linguistischen Objekts hinsichtlich seiner Wortart, sowie der ggf. von ihm subkategorisierten Erganzungen);
{ Relationale bzw. funktional-syntaktische Beschreibung (bei linguistischen Objekten, die als Pradikate aufgefat werden konnen und Erganzungen subkategorisieren: Angabe der syntaktischen Funktion dieser Erganzungen);
{ (lexikalisch) semantische Beschreibung (De nitionen, Sortenangaben, semantische Merkmale, Bedeutungspostulate usw.; Bedeutungserlauterung);
{ Relational-semantische Beschreibung (lexikalisch-semantische Relationen mit
anderen linguistischen Objekten; (Quasi-)Synonymie, Hyp(er)onymie usw.);
{ Text-semantische Beschreibung (z.B. Vor- und Nach-Bedingungen, mogliche
Inferenzen, andere fur die Diskurs-Interpretation relevante Informationen);
{ \Lexikalisch-pragmatische Beschreibung" (diasystematische Markierung, Klassi kation nach Stil-, Fachsprachen-, Textsortenkriterien usw.).
Die Beschreibung der formalen Grundlagen bzw. der linguistischen Beschreibungstheorie kann durch einfachen Verweis auf diese Theorie erfolgen. In der Regel ist fur
jede linguistische Theorie bekannt, bzw. nachvollziehbar, welche Beschreibungsmittel sie verwendet. Allenfalls mu separat beschrieben werden, welche Beschreibungsmittel zum Einsatz kommen. Ebenso mu ggf. deutlich gemacht werden, welche Art
extralinguistischer Information vorhanden ist (z.B. Verweise auf Bilder, Gerausche;
Verweise auf Elemente eines Domanenmodells, usw.).
Formale Organisation des Worterbuchs: Die Organisation kann explizit oder implizit erfolgen. Explizit organisierte Worterbucher sind solche, bei denen jeder Angabetyp separat
identi zierbar ist und Anfang und Ende jeder einzelnen Angabe (Terminus im Sinne von


13 Auerdem kann an dieser Stelle das Vorhandensein extralinguistischer Information berucksichtigt


werden; vgl. [Martin/Woltering 1989].

Wiegands metalexikographischer Theorie) anhand der Markierungen feststellbar sind. Dagegen sind implizit organisierte Ressourcen solche, bei denen der Angabetyp und Anfang
und Ende einer bestimmten Angabe aus dem Worterbuchtext mit den Mitteln der metalexikographischen Worterbuchanalyse erschlossen werden mu.
Kennzeichen explizit organisierter Worterbucher ist das Vorhandensein eines irgendwie gearteten Markup14 oder bestimmter, voneinander unterscheidbarer Datentypen zur
Reprasentation von Angaben unterschiedlichen Typs15 .
Technische Eigenschaften: die technischen Eigenschaften einer lexikalischen Ressource
betre en das Speichermedium und die Reprasentation des Worterbuchs (als Datenbank,
Textdatei, Datentypen einer Programmiersprache, komprimiert/unkomprimiert, Anzahl
und Formate von Dateien usw.).
Zusammenhang mit anderen Ressourcen: \machine readable dictionaries" stehen oft
in eingem Zusammenhang mit einem gedruckten Worterbuch. In solchen Fallen hat das
elektronische Worterbuch zwar andere technische Eigenschaften als das gedruckte, jedoch
bleiben die inhaltlichen und die Worterbuchorganisatorischen Parameter gleich wie beim
gedruckten Worterbuch, oder sie lassen sich bei Kenntnis des \zugrundeliegenden Worterbuchs" leichter erschlieen.

1.2.1.3 Relevanz der Beschreibungsparameter fur das Design von


elektronischen Worterbuchern

Die oben genannten Parameter zur Beschreibung elektronischer Worterbucher konnen einerseits fur die Beschreibung bestehender lexikalischer Ressourcen benutzt werden, andererseits sollten sie in die Anforderungsde nition fur die Entwicklung neuer elektronischer
Worterbucher hinein: der Entwickler mu sicherstellen, da fur die zu entwickelnde Ressource hinsichtlich der hier beschriebenen Parameter geeignete Entscheidungen getro en
werden.
Hierbei spielen insbesondere die makro- und mikrostrukturellen Kriterien, sowie Fragen
des Zusammenhangs zwischen den angestrebten Organisationsprinzipien und den technischen Eigenschaften der Ressource fur die De nition einer geeigneten Worterbucharchitektur eine Rolle.
In Kapitel 3.2 wird ein Vorschlag fur Architekturprinzipien fur elektronische Worterbucher gemacht; in Kapitel 4 werden Beispielfragmente diskutiert, die nach diesen
14 Beispielsweise die Annotation von Textdateien mit SGML (Standard Generalized Markup Language).
15 In Worterbuchern von NLP-Systemen konnen das z.B. Attribut-Wert-Strukturen sein, bei denen die
einzelnen Attribute durch unterschiedliche Attributnamen voneinander unterschieden werden. Nicht
samtliche elektronischen Worterbucher sind explizit organisiert. Vielmehr wird gerade in \Lookup"Versionen gedruckter Worterbucher, die als Textdateien vorliegen, oft auf eine eindeutige Unterscheidung zwischen Angabetypen verzichtet, selbst wenn eine eindeutige Unterscheidung von Textsegmenten durch unterschiedliche typographische Auszeichnungskonventionen moglich ist. Da in der Regel
die Typographie in Worterbuchtexten mehrdeutig ist (z.B. konnen kursiv gedruckte Teile in ein und
demselben Eintrag durchaus De nitionen oder Beispiele sein), ist es nicht trivial, aufgrund der Typen von unterschiedlich ausgezeichneten Textstucken eindeutig zu rekonstruieren und automatisch zu
inferieren, welche Angabetypen vorliegen. Vgl. hierzu auch die Probleme der Reinterpretation von
gedruckten Worterbuchern, die in Abschnitt 2.1.2.5 diskutiert werden.
Auerdem konnen z.B. Hierarchien von Eintragen, bei denen Information durch Vererbung bereitgestellt wird, implizit organisiert sein: es kann daher notig sein, in einem Lexikon-Formalismus die
Unterscheidung zwischen \er-erbter" und \lokal de nierter" Information deutlich zu machen (insbesondere fur die Zwecke der interaktiven Erweiterung der Worterbucher).

Prinzipien erstellt worden sind. Ohne vorgreifen zu wollen, konnen wir hier bereits einige Charakteristika der unten im Detail beschriebenen Worterbucher anhand der oben
diskutierten Parameter zusammenstellen.
 Anwendungsorientierung: die Ressource soll multifunktional sein, insofern sie verschiedene sprachverarbeitende Anwendungen bedienen soll. Auerdem soll es moglich
sein, aus der zu entwickelnden Ressource Material fur ein interaktiv abzufragendes
elektronisch reprasentiertes Worterbuch abzuleiten. Anwendungsspezi sche Prasentationformen sollen uber eine spezielle Export-Komponente aus der formal reprasentierten Beschreibung abgeleitet werden; vgl. Abschnitt 5.2).
 Inhaltliche Beschreibung:
{ Makrostruktur: die Beispielfragmente stammen aus Franzosisch und Deutsch,
Englisch und Niederlandisch, sowie Italienisch; die Fragmente beinhalten nur
Verben aus dem lexikalisch-semantischen Feld der Wahrnehmung, jedoch sind
die Architekturvorschlage auch uber diesen Bereich hinaus generalisierbar.
{ Mikrostruktur: die hier vorgestellten Modellierungen konzentrieren sich auf
die orthographische, kategorial- und funktional-syntaktische und lexikalischsemantische Beschreibung. Zum Teil werden \lexikalisch-pragmatische" Aspekte mitberucksichtigt. Der zugrundeliegende Beschreibungsansatz ist von HPSG
(Head-Driven Phrase Structure Grammar, vgl. [Pollard/Sag 1994]) inspiriert,
der Theorie aber nicht so weitgehend verp ichtet, da angestrebt wurde neue
Vorschlage zur lexikalischen oder linguistischen Beschreibung mit HPSG zu
machen. Dies erklart sich schon aus der Zielsetzung der \Multifunktionalitat".
Fur die lexikalisch-semantische Beschreibung wird Fillmores Frame Semantics
benutzt; auch hier gilt dasselbe: die Theorie dient als Beispielfall fur die Anwendung der Lexikonarchitektur.
 Organisation der Ressource: das Worterbuch soll durchgangig explizit organisiert
sein. Der Reprasentationsformalismus TFS (Typed Feature Structures) wird verwendet. Er wird in Abschnitt 3.1 detailliert beschrieben.
 Technische Eigenschaften: die Benutzung von TFS als Reprasentationsformalismus
fuhrt dazu, da TFS-De nitionen als Textdateien (ASCII les) reprasentiert werden.
 Zusammenhang mit anderen Ressourcen: die Beispielfragmente wurden neu konzipiert16. Die einzelsprachlichen Teilfragmente sind parallel (gleiche Beschreibungsmittel; die Fragmente sind eineinander ubersetzbar).

1.2.2 Probleme der kontrastiven lexikalischen Beschreibung


Die Vorschlage zur Worterbuchstrukturierung, die hier entwickelt werden, sind vor dem
Hintergrund von maschinellen U bersetzungssystemen (MU -Systemen) zu sehen. Die wichtigsten Aspekte von maschinellen U bersetzungssystemen werden in diesem Zusammenhang als bekannt vorausgesetzt. In einschlagigen U berblicksdarstellungen werden die Grund16 Die TFS-Modellierung beruht auf informeller lexikographischer Beschreibungsarbeit, die von den
Mitgliedern des DELIS-Projekts geleistet wurde; die DELIS-Partner haben aber nicht selbst TFSModellierungen produziert.

prinzipien der bestehenden MU -Systeme detailliert beschrieben17 . Die meisten regelbasierten maschinellen U bersetzungssysteme (also nicht solche, die statistische Verfahren zur
Berechnung der wahrscheinlichsten U bersetzungsaquivalente verwenden) folgen entweder
dem Transfer-Ansatz oder dem Interlingua-Ansatz. Beide Verfahren gehen auf strati kationelle Beschreibungsansatze zuruck.
Im Falle des Transfer-Ansatzes wird davon ausgegangen, da das U bersetzungssystem
zunachst quellsprachliche Satze analysiert und die aus den Quellsprachsatzen abgeleiteten
abstrakten Reprasentationen auf andere abstrakte Reprasentationen abbildet, aus welchen
zielsprachliche Satze generiert werden konnen.
Demgegenuber wird im Rahmen des Interlingua-Ansatzes versucht, abstrakte Reprasentationen so zu formulieren, da sie gleichermaen geeignet sind, quellsprachliche
und zielsprachliche A uerungen oder Teile davon adaquat zu beschreiben. Wo dies moglich
ist, entfallt die Notwendigkeit einer eigenen Abbildung zwischen den einzelsprachspezi schen abstrakten Reprasentationen.
MO/SY:

c-str.

MO/SY:

...

SYN:

f-str.

...

SYN:

...

SEM:

lex. sem.
...

c-str.

f-str.
...

SEM:

lex. sem.
...

Abbildung 1.2: Vereinfachtes Schema des Transfer-Ansatzes


In den Abbildungen 1.2 und 1.3 sind die beiden Ansatze schematisch und anhand einer sehr vereinfachten linguistischen Beschreibung (nur morphosyntaktische, syntaktische
und semantische Beschreibungen) dargestellt. Beim Transferansatz (Abbildung 1.2 werden die funktional-syntaktischen Strukturen und/oder die Pradikat-Argument-Strukturen
von Quell- und Zielsprache durch gerichtete Abbildungen verbunden.
In einem interlingua-basierten Modell wird dagegen angenommen, da es eine Reprasentation gibt, die die Bedeutung sowohl der quell- als auch der zielsprachlichen A uerungen auszudrucken vermag. Das Schema in Abbildung 1.3 ist bewut analog zu Abbildung 1.2 gehalten; dort ist die semantische Teilbeschreibung hinterlegt: sie dient als
gemeinsame Reprasentation fur Quell- und Zielsprache18 .
Man hat, beispielsweise in Vorbereitungsdiskussionen fur das Verbmobil-Projekt19 ,
ausfuhrlich uber die Zusammenhange zwischen Transfer- und Interlingua-Ansatz disku17 Vgl. beispielsweise [Nirenburg (Ed.) 1987], dort insbesondere die Einfuhrung von [Tucker 1987]; vgl.
auch [Arnold et al. 1994]. Einen U berblick uber maschinelle U bersetzungssysteme, die in der Praxis
angewendet werden, geben [Slocum 1988], sowie, fur ein deutsches Publikum [Schwanke 1991].
18 In beiden Ansatzen wird Interaktion zwischen den einzelnen ebenenspezi schen Teilbeschreibungen,
beispielsweise durch relationale Abbildungen, vorausgesetzt
19 Verbmobil ist ein Verbundprojekt des Bundesministeriums fur Bildung, Wissenschaft, Forschung
und Technologie zur maschinellen U bersetzung gesprochener Sprachen.

MO/SY:

c-str.

MO/SY:

c-str.

...

SYN:

...

f-str.

SYN:

f-str.

...

SEM:

...

lex. sem.

SEM:

lex. sem.

...

...

Abbildung 1.3: Vereinfachtes Schema des Interlingua-Ansatzes


tiert. In Verbmobil20 wird ein Transfer-Ansatz verfolgt, bei dem Information mitbenutzt
werden kann, die uber die quell- und zielsprachlichen Beschreibungen generalisiert werden
kann, z.B. zur Reprasentation von lokalen oder temporalen Relationen (in Verbmobil
wurde vorgeschlagen, die \Analysetiefe" variabel zu halten, d.h. je nach dem Bedarf der
U bersetzung mehr oder weniger abstrakte (semantische und ggf. domanenspezi sche) Information in die Reprasentationen einzubinden).
2

phon hMon
dictionnaire me manque i
6
2

37
2
3
7
 6
6
7
head
verb
6
6
7
7
4
5
phon hI miss my dictionary i 6
6cat
77
6
6
subcat
hi
77
6
6
7
2
37
6
6
77
+
6: : : jloc6
7
7
6
6
7
6reln miss
77
6
6
7
7
1 jfspeaker( 1 )g 777
exper
6
6cont6
English HPSG
4
5
6
4
57
6
theme 2 jf 1 's dict.( 2 )g 77
6
4
5
+
dtrs
:::
3

phon hI miss my dictionary i

*
6
2
37
2
3
7
6
7
6
6cat 4head verb5
77
6
6
77
6
French HPSG
subcat
hi
6
77
6
6
77
6
2
3
6
77
6
77
6: : : jloc6
reln miss
*
6
77
6
6
7
6cont6exper 1 jfspeaker( 1 )g 2777
6
33
2
6
7
6
4
57
6
6
77
reln
miss
6
4
theme 2 jf 1 's dict.( 2 )g66577
77
6
6
7
: :7: jlocjcont6exper 1 jfspeaker( 1 )g 77
6
6
{z
}
|
?6 5
57
4
4
4
theme 2 jf 1 's dict.( 2 )g 5
dtrs : : :
|
{z
}

"

!
6

Abbildung 1.4: Schema der interlingua-basierten U bersetzung mit HPSG (aus [Heid/Kuhn
1994])
In Kapitel 4 werden Beispiele fur monolinguale lexikalische Beschreibungen gegeben. Diese
20 Im Rahmen der vorliegenden Arbeit konnten aus Grunden der U berlagerung der Erscheinungstermine
die neuesten Arbeiten des Verbmobil-Projekts nicht oder nur zu einem geringen Teil berucksichtigt
werden. Die Vorbereitungsdiskussion ist z.B. in [Kay/Gawron/Norvig 1994] dargestellt.

konnten mit geringem Aufwand in ein auf HPSG-Grammatiken aufbauendes interlinguabasiertes experimentelles MU -System eingebracht werden, dessen Grundlagen und Funktionsweise zuerst in [Heid/Kuhn 1994] beschrieben worden sind. Fur die Quellsprache und
die Zielsprache werden jeweils HPSG-(artige) Beschreibungen aufgebaut, und die angereicherten Pradikat-Argument-Strukturen (Werte des \CONT(ent)"-Attributs) werden als
gemeinsame abstrakte Reprasentation von Quell- und Zielsprache benutzt.
In diesem System enthalten die Lexikoneintrage gleichberechtigte Teilbeschreibungen
der Wortformen (Lautgestalt, bzw. Orthographie unter dem \PHON(ology)"-Attribut), der
syntaktischen Struktur (unter dem Attribut \CAT(egory)") und der semantischen Struktur (Pradikat-Argument-Strukturen, unter dem Attribut \CONT(ent))". Liegen im oben
diskutierten Sinne parallele Grammatiken vor, so konnen quell- und zielsprachliche Grammatiken und Lexika miteinander kombiniert werden.
Die Analyse der Quellsprache besteht darin, da ein Satz, von dem zunachst nur die
Zeichenkette bekannt ist, mit den De nitionen von Grammatik und Lexikon verglichen
wird. Das Ergebnis ist eine vollstandig spezi zierte Struktur, in der zusatzlich zur Zeichenkette eine von der Grammatik abgeleitete syntaktische und semantische Beschreibung ausgegeben wird. Analog hierzu kann man die zielsprachliche Grammatik und ihr Lexikon mit
dem Wert des CONT(ent)-Attributs abfragen. Wiederum wird die gesamte, vollstandig spezi zierte Satzbeschreibung erzeugt, wobei in diesem Fall Syntax und Zeichenkette erganzt
werden, jetzt anhand der zielsprachlichen Spezi kation. Man kann den ersten Vorgang
(von der Textform zur vollstandigen Beschreibung) als \Analyse", den zweiten Vorgang
(von der Bedeutungsbeschreibung zur vollstandigen Beschreibung, inklusive Textform)
als \Generierung" bezeichnen. Fur die Zwecke der U bersetzung wird die Analyse mit der
Quellsprach-Grammatik durchgefuhrt, die Generierung mit der Zielsprach-Grammatik.
In Abbildung 1.4 ist dieser U bersetzungsansatz anhand von HPSG fur Englisch und
Franzosisch schematisch dargestellt.
In den Abschnitten 2.3 und 3.2 werden Vorschlage fur die Architektur monolingualer
Worterbucher gemacht. Dabei spielt die Verwendbarkeit der lexikalischen Beschreibungen fur verschiedene Anwendungen eine groe Rolle. Da der Transfer-Ansatz und der
Interlingua-Ansatz Losungen derselben konstrastiven lexikalischen Probleme bereitstellen
mussen, ware es wunschenswert, auch ein kontrastives Worterbuch so anzulegen, da es
verschiede Anwendungen versorgen kann, in diesem Fall Systeme, die auf dem TransferAnsatz bzw. auf dem Interlingua-Ansatz beruhen. Ein Worterbuch, welches beide Arten
von Beschreibungen unterstutzen soll, mu hinreichend detaillierte Informationen von
samtlichen relevanten Beschreibungsebenen enthalten.

Kapitel 2
Lexikographische Aspekte der
Worterbuchstrukturierung
2.1 Wiederverwendbare lexikalische Beschreibungen { Multifunktionale
Worterbucher
Seit den spaten 80er Jahren wurde in der Computerlinguistik uber die Scha ung umfangreicher Lexika fur die Sprachverarbeitung diskutiert, und auf die Notwendigkeit der Erstellung wiederverwendbarer1 Worterbucher hingewiesen. Aufgabe und Zielsetzung von Forschungsvorhaben und Studien wie z.B. Eurotra-7 (1990/91), Lexic (1990/91)2, Multilex (1991-93), zum Teil auch Acquilex und DELIS (1993-95) war es, Konzepte fur die
Wiederverwendung lexikalischer Information zu entwickeln; das Forschungsprojekt Multilex ist beispielsweise mit dem Ziel angetreten, in verschiedenen Typen von Sprachverarbeitungssystemen verwendbare (\multifunktionale") Worterbucher zu entwickeln oder
an ihrer De nition zu arbeiten (vgl. [Modiano 1994]). Die Fragestellung hat bis heute
nichts an Aktualitat verloren, wie der neueste Sammelband von [Hotker/Ludewig (Ed.)
1996] zeigt, der verschiedenen Ansatzen zur Wiederverwendung lexikalischer Information
gewidmet ist.
In diesem Kapitel wird zunachst die bisherige Diskussion uber die Wiederverwendung
lexikalischer Information zusammengefat. Aus bisherigen De nitionen von multifunktionalen Worterbuchern werden die fur die vorliegende Arbeit relevanten Aspekte als
Komponenten einer Anforderungsde nition fur die Worterbuchorganisation extrahiert.

2.1.1 Begri sbestimmung: Wiederverwendbare lexikalische Ressourcen

Die Diskussion um die Wiederverwendung von lexikalischer Information in der Computerlinguistik ist mit der Dissertation von Robert Amsler 1980 (vgl. [Amsler 1980]) in
Gang gekommen, der als wohl erster Computerlinguist Satzbander eines monolingualen
(englischen) Worterbuchs analysiert hat (das Merriam Webster Pocket Dictionary), mit
dem Ziel, aus den Eintragen des Worterbuchs Beschreibungen zu extrahieren, die als lexikalische Informationsquelle fur ein sprachverarbeitendes System dienen konnen. In der
Folgezeit wurden verschiedene vergleichbare Untersuchungen an anderen englischen Wor-

1 Zum Teil wird auch von Wiederverwertung, wiederverwertbaren Worterbuchern, etc. gesprochen. Hier
wird durchgangig der Begri \Wiederverwendung" (etc.) benutzt. Die beiden Termini werden hier
synonym verwendet. [Hotker/Ludewig 1996] (die Einleitung zu [Hotker/Ludewig (Ed.) 1996]) unterscheiden zwischen \Wiederverwendung" (ohne Modi kation der bestehenden Beschreibungen) und
\Wiederverwertung" (Nutzbarmachung fur neue Anwendungen durch Modi kation der bestehenden
Beschreibungen). Der erste Fall ist rein hypothetisch: eine Reinterpretation (vgl. unten, Abschnitt
2.1.2) ist nahezu immer notig. Hier wird also der Terminus \Wiederverwendung" durchgangig im
Sinne von Hotker/Ludewigs Begri \Wiederverwertung" benutzt (vgl. auch [Kanngiesser 1995]).
2 Vgl. den Abschlubericht [Van der Eijk et al. 1991].

terbuchern angestellt, insbesondere am Longman Dictionary of Contemporary English,


LDOCE3.
Amslers Arbeit und die Experimente mit LDOCE zielen auf die Nutzung vorhandener traditioneller Worterbucher als Ressourcen fur NLP-Systeme. Gleichzeitig mit diesen
Arbeiten kamen auch Diskussionen daruber in Gang, welche Organisation linguistischer
Beschreibungen, welcher Aufbau und welche Reprasentationsform fur das Worterbuch
eines Sprachverarbeitungssystems zu wahlen seien, das von vorneherein fur verschiedene
Anwendungen konzipiert sein wurde. Es hatte sich herausgestellt, da die Entwicklung von
NLP-Systemen unter anderem deswegen relativ inezient verlief, weil fur jedes System,
ein kleines Worterbuch entwickelt werden mute, das bestenfalls einige hundert Eintrage
umfate; bis heute werden zum Teil nebeneinander Worterbucher fur \toy applications"
entwickelt, die nur kleine, zum Teil uberlappende Fragmente abdecken, ohne da ein bestehendes Worterbuch als Grundlage eines anderen, neu zu entwickelnden Worterbuchs
genommen wurde.
Im wesentlichen sind es also praktische Grunde, die den Ansto fur Forschungen uber
die Wiederverwendbarkeit von Worterbuchern gegeben haben. Zum einen der Versuch,
die sehr groen Datenmengen, die in \traditionellen" gedruckten Worterbuchern enthalten sind, fur die Sprachverarbeitung nutzbar zu machen; zum anderen der Versuch,
einmal fur sprachverarbeitende Systeme einer bestimmten Art vorbereitete Worterbucher
neben dieser ursprunglichen Anwendung auch fur andere NLP-Anwendungen nutzbar zu
machen4 . In diesem Zusammenhang kam der Begri der \wiederverwendbaren linguistischen Ressource" (reusable linguistic resource) in der Diskussion auf5.
In den Arbeiten von Eurotra-7 und in Anwendungen der Resultate dieser Studie
wird der Terminus \wiederverwendbare linguistische Ressource" in zwei Bedeutungen de niert:
1. Der Begri \wiederverwendbare linguistische Ressource" bezeichnet eine linguistische Wissensquelle, die in einer anderen Anwendung benutzt werden kann als derjenigen, fur die sie ursprunglich gescha en wurde.
Diese Benutzung auerhalb der ursprunglich intendierten Anwendung kann verschiedene Arbeitsschritte der Reinterpretation und Reformatierung, der Extraktion von
3 Die Ergebnisse umfangreicher Forschungen verschiedener Gruppen (insbesondere in Cambridge und
Amsterdam) sind in [Boguraev/Briscoe 1989] zusammengefat. Die neueste und umfangreichste Analyse eines gedruckten Worterbuchs, bei der die Nutzung als Wissensquelle fur ein sprachverarbeitendes
System angestrebt wird, ist [Sinclair/Hoelter/Peters (Ed.) 1994]: dort wurde versucht, aus dem Collins Cobuild Student's Dictionary syntaktisch-semantische Information zu extrahieren und in ein mit
HPSG verarbeitbares Format umzusetzen.
4 Die neueste und detaillierteste Beschreibung der Forschungen zur Wiederverendung von lexikalischen
Ressourcen ndet sich in [Zampolli 1994] und in [Atkins/Levin/Zampolli 1994]: 26 . Dort wird die
Entwicklung der computerlinguistischen Diskussion detailliert chronologisch nachgezeichnet, bis zum
Beginn der Eurotra-7-Studie. An dieser Stelle braucht deswegen auf die Arbeiten bis 1990 nicht
in allen Details eingegangen zu werden. Die zitierten Artikel, ebenso wie die anderen Arbeiten in
dem Band von [Atkins/Zampolli (Ed.) 1994] geben einen U berblick auf den Stand von ca. 1990/91.
Hier werden statt einer Fortschreibung eines breiten U berblicks gezielt die relevanten Resultate von
Eurotra-7 (vgl. [Heid/McNaught 1991] und [Mc Naught 1990]) und den Nachfolgeaktivitaten der
Eurotra-7-Studie beschrieben.
5 Erstmalig de niert von McNaught in einer Arbeitssitzung 1987, dann von Calzolari aufgenommen und
schlielich in den Arbeiten der Eurotra-7-Studie detailliert diskutiert; vgl. [Heid/McNaught 1991],
[Heid 1991a]. Der Bericht [Heid/McNaught 1991] kann von der Europaischen Kommission bezogen
werden, wurde aber nicht in Buchform publiziert.

Teilen der Beschreibungen aus der ursprunglichen Ressource oder der kompletten
Transformation der gesamten Ressource notwendig machen.
Beispiele: die maschinenlesbare Version eines gedruckten Worterbuchs wird so adaptiert, da sie neben der ursprunglichen, interaktiven Benutzung auch fur ein sprachverarbeitendes System verwendet werden kann.
Oder: ein Worterbuch, welches urspunglich fur ein maschinelles U bersetzungssystem
konzipiert ist, wird (z.B. mit einem zusatzlichen Ausgabe-Interface) auch als \Lookup-Worterbuch", fur interaktive Abfrage verwendet.
2. Der Begri \wiederverwendbare lexikalische Ressource" bezeichnet eine linguistische Wissensquelle, die schon von ihrer Konzeption an so spezi ziert und realisiert
worden ist, da die Benutzung in verschiedenen Situationen oder Systemen (sowohl
verschiedenen Sprachverarbeitungsanwendungen, als auch verschiedenen (interaktiven) Benutzungssituationen mit \menschlichen Benutzern") in die Design-Kriterien
mitein iet. Solche linguistischen Wissensquellen werden auch als \multifunktionale" Ressourcen bezeichnet.
Beispiele: Ein Worterbuch, welches innerhalb einer Firma fur verschiedene Sprachverarbeitungsanwendungen gemeinsam benutzt wird; oder: eine lexikographische
Ressource eines Verlags, aus welcher verschiedene anwendungsspezi sche gedruckte Worterbucher oder interaktiv zu verwendende elektronische Produkte hergestellt
werden6 .
Der Unterschied zwischen den beiden Lesarten des Terminus \wiederverwendbare linguistische Ressource" liegt also darin, da nach der ersten Au assung von Wiederverwendbarkeit schon bestehende Beschreibungen fur neue Anwendungen nutzbar gemacht
werden sollen, ohne da auf das Format der Quell-Materialien noch eine Ein unahme
moglich ware (die \Um-Nutzung" erfolgt post mortem). Dagegen ist es fur die zweite Lesart von \Wiederverwendung" konstitutiv, da die Mehrfach-Verwendung schon von der
Spezi kationsphase an eingeplant wird.
Diese Kriterien gelten sinngema fur Worterbucher, Grammatiken, annotierte Textcorpora und sogar fur bestimmte Arten von Sprachverarbeitungswerkzeugen. Deswegen
wird hier der allgemeine Begri \Ressource" benutzt.

2.1.1.1 Lexikalische Wiederverwendung in der praktischen Lexikographie


In der praktischen Lexikographie wird der Gedanke der multifunktionalen lexikalischen
Ressource, in einer anderen Terminologie und zum Teil mit einer vordergrundig zunachst
anderen Zielsetzung als in der Sprachverarbeitung schon seit langem diskutiert.
Da Worterbuchverlage ihre Produkte \wiederverwenden", indem sie Beschreibungen
aus einem Worterbuch in ein anderes ubernehmen, ist bekannt. Weniger als 25% U berlappung zwischen Worterbuchern ist nicht anstoig7. In bestimmten Fallen werden auch
6 Quemada nennt eine solche Ressource base de donnees predictionnairique; Atkins spricht im Fall der
lexikographischen Faktensammlung, die dem Oxford/Hachette-Worterbuch zugrundeliegt, von
\( lled)framework"; auf diese Art von Ressourcen wird unten noch detaillierter eingegangen (vgl.
Abschnitt 2.1.1.1).
7 Hausmann diskutiert Methoden der direkten U bernahme von lexikalischen Beschreibungen in verschiedenen Worterbuchern unter dem Schlagwort \Worterbuchkriminalitat". Uns ist folgender Vor-

aus dem Lemmabestand und der Mikrostruktur von bestehenden Worterbuchern Teile
\herausgestrichen", wenn ein neues Worterbuch (oder eine neue Au age des zur Rede
stehenden Worterbuchs) hergestellt werden soll. Diese Verfahren stehen hier jedoch nicht
zur Diskussion.
Der wichtigste Aspekt der Wiederverwendung lexikalischer Information in der praktischen Lexikographie ist die Anlage einer Faktensammlung mit lexikalischen Beschreibungen, aus denen andwendungsspezi sche, d.h. zielgruppenspezi sche Worterbucheintrage
entwickelt werden konnen. Aus der Sicht der Worterbuchproduktion ist es sinnvoll, wenn
Worterbuchverlage solche Faktensammlungen (\pre-dictionary fact base", gelegentlich
auch \( lled) framework") anlegen, aus denen Material fur bestimmte Zielgruppen extrahiert und in Worterbuchartikel eingebracht werden kann. Idealerweise enthalt die Faktensammlung eine detaillierte Beschreibung von Lemmata (oder von Lesarten), Beispiele, Notizen, Verweise auf Fundstellen, auf linguistische Literatur, usw.; das Material ist
typischerweise nicht im Hinblick auf ein bestimmtes Worterbuch aufbereitet8. Mit der
Verfugbarkeit groer, linguistisch annotierter Textcorpora und leistungsfahiger Analysewekzeuge verschwimmt die De nition der base de donnees predictionnairique ein wenig.
Sinclair mochte auf die Anlage einer Faktensammlung als Datenbank ganz verzichten
und die relevanten Belegmaterialien bei Bedarf aus dem Corpus generieren (vgl. [Sinclair
1995]). Allerdings ist eine Liste von Belegen noch keine Sammlung von Rohmaterial fur
die Worterbucherstellung, weil die Verkettung von Corpusanalysewerkzeugen, durch die
solche Belege gefunden werden konnen, bislang nur als Sequenz vorde nierter Untersuchungsschritte denkbar ist, nicht als ein System, das bei Bedarf neue Typen von Analysen
ohne groere Modi kation einbauen kann.
Die \Dynamisierung" der \pre-dictionary fact base" durch konstanten Corpusbezug
ist aber unbedingt wunschenswert. Fur jedes erfate Phanomen konnen so Corpusbelege bereitgestellt werden; ein soches Verfahren wird bei der Erstellung von Worterbuchfragmenten im DECIDE-Projekt (vgl. [Heid 1996] fur einen U berblick) angewendet:
zu jeder Angabe im Worterbuch konnen Corpusbelege generiert werden. Wiederum wird
versucht, eine Materialsammlung bereitzustellen, aus der, je nach Anwendung, verschiedene Kombinationen lexikalischer Beschreibungen abgeleitet werden konnen.
Hier genugt es, festzuhalten, da relativ ahnliche Fragestellungen und Zielsetzungen
sowohl in der Lexikographie als auch in der Computerlinguistik diskutiert werden: wie
konnen bestehende lexikalische Beschreibungen neu genutzt werden, und wie konnen neu
zu erstellende Beschreibungen multifunktional gestaltet werden? Die A hnlichkeiten zwischen den Arbeiten in Lexikographie und Computerlinguistik wurden in beiden Feldern
insgesamt wenig beachtet9 .
gang bekannt: ein franzosischer Verlag hat fur den Verkauf eines franzosischen Schulerworterbuchs in
Afrika lediglich die Namen der in den Beispielen vorkommenden Personen und den Titel des Werks
(neu: \ Dictionnaire pour l'Afrique") ausgetauscht, sonst aber ein fur den franzosischen Markt produziertes eigenes Worterbuch direkt ubernommen und als dem Anschein nach zielgruppenorientiertes
Produkt verkauft.
8 In die Richtung der \pre-dictionary fact base" gehen die Vorschlage fur lexikalische Wiederverwendung
von [Martin/Al 1988]. Die Autoren de nieren eine Reihe von Anforderungen an die \dictionary data
base", die bewut von \front end dictionaries" getrennt sein soll. Auf die Vorschlage von [Martin/Al
1988] wird, aus der Sicht der Trennung zwischen Datendeskription und lexikographischer Prasentation,
in Abschnitt 2.2.1 eingegangen.
9 Mindestens nden sich in Arbeiten zur \Computational Lexicography" kaum Zitate von metalexikographischen Forschungen und umgekehrt.
<

>

Die De nition von multifunktionalen Worterbuchern hangt auch eng mit der Diskussion
uber Standardisierungsvorschlage fur lexikalische Beschreibungen und fur (elektronische)
Worterbucher zusammen. Ein moglicher Denkansatz ist es, die Reprasentation von multifunktionalen Beschreibungen, wie sie hier diskutiert wird, als \Standard-Worterbuch"
zu verwenden, bzw. umgekehrt die Reprasentation eines multifunktionalen Worterbuchs
auf Vorschlagen aufsetzen zu lassen, die aus Standardisierungsbemuhungen hervorgehen. Ein Standard beruht typischerweise auf dem Konsensus verschiedener Anwender;
ein Wiederverwendungs-Szenarium wie es hier beschrieben wird, konnte eine Grundlage
fur die praktische Realisierung von Standards (in Unternehmen, in Projekten etc.) sein.
Dieser Ansatz wird von der Eagles-Gruppe (European Expert Group on Linguistic Engineering Standards) fur den Bereich morphosyntaktischer (und zukunftig syntaktischer)
Lexika verfolgt.

2.1.1.2 Wiederverwendung vs. Akquisition, Reprasentation und Anwendung


von lexikalischer Information: Das Szenarium von Eurotra-7
Die beiden oben in Abschnitt 2.1.1 kurz skizzierten Aspekte der Wiederverwendbarkeit
von lexikalischen (und allgemein von linguistischen) Ressourcen hangen zusammen. Insgesamt besteht ein enger Zusammenhang zwischen der Wiederverwendungsdiskussion und
Fragen der lexikalischen Reprasentation, der lexikalischen Akquisition und der Benutzung
lexikalischer Information (z.B. in NLP-Anwendungen). In der Eurotra-7-Studie wurden
diese Zusammenhange schematisch wie in Abbildung 2.1 dargestellt10.
In dem Schema in Abbildung (Fig. 2.1) werden drei Zonen unterschieden, die Akquisitions-Zone, die Reprasentations-Zone und die Anwendungs-Zone.
Die Reprasentations-Zone nimmt eine zentrale Stellung ein. Die interne Reprasentation
lexikalischer Beschreibungen, die Moglichkeit der Kombination partieller Beschreibungen,
je nach den Anforderungen der Zielanwendung, und die Moglichkeit, aus den Quellmaterialien Information zu extrahieren und in die dem Modell zugrundeliegende Reprasentation zu uberfuhren, spielen eine wichtige Rolle. Insbesondere fur das multifunktionale
Worterbuch ist die Reprasentationszone von grundlegender Bedeutung, vor allem eine
sorgfaltige De nition der lexikalischen Reprasentation, sowohl hinsichtlich des benutzten
Reprasentationsformalismus, als auch hinsichtlich der Inhalte und der Organisation des
Worterbuchs.
Die Graphik in Abbildung 2.1 stellt das Lexikon als ein Modell mit mehreren Beschreibungsebenen (z.B. orthographische, phonologische, morphologische, syntaktische, semantische, pragmatische Beschreibung) dar; ein strati kationeller Ansatz, der die einzelnen
linguistischen Beschreibungsebenen voneinander trennt, ist nicht konstitutiv fur ein multifunktionales Worterbuch; es gibt aber eine Reihe von Grunden, weswegen ein solcher
Ansatz die Erstellung von multifunktionalen Worterbuchern unterstutzt. Der wichtigste
Grund ist die Moglichkeit, ein strati kationelles Worterbuch modular anzulegen, soda
Beschreibungen der einzelnen linguistischen Beschreibungsebenen als einzelne Komponenten des Worterbuchs aufgefat werden konnen.
Die Akquisitions-Zone umfat verschiedene Arten von Quellen, aus denen lexikalische
Beschreibungen oder, im Fall einer base de donnees predictionnairique, Rohmaterial fur
lexikalische Beschreibungen extrahiert werden konnen. Hierzu gehoren Textcorpora, ma10 Die drei betro enen Bereiche sind in der Abbildung durch (zum Teil uberlappende) Zonen { \acquisition { representation { application" { angegeben.

...

1111111111111111111111111111
0000000000000000000000000000
0000000000000000000000000000
1111111111111111111111111111
Application
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000
1111111111111111111111111
Acquisition
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000
1111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
1111111111111111111111111
0000000000000000000000000
0000000000000000000000000000
1111111111111111111111111111
Representation
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111

Abbildung 2.1: Ein Szenarium der Wiederverwendung von lexikalischer Information (aus
der Eurotra-7-Studie, vgl. [Heid/McNaught 1991])
schinenlesbare Worterbucher und Lexika von sprachverarbeitenden Systemen, aber auch
die Beschreibungsintuition von Linguisten und Lexikographen. Zu jeder Quelle ist eine
Erfassungsschnittstelle notwendig (in der schematischen Darstellung in Abbildung 2.1 als
stehende Rechtecke symbolisiert), uber die Informationen aus den Quellen in die multifunktionale Reprasentation gelangen; solche Schittstellen sind zum Teil durch Konversionsroutinen (Abbildungen zwischen verschiedenen Reprasentationen) realisierbar, zum
Teil als interaktive Eingabewerkzeuge. Die als Quellen fur die lexikalische Akquisition in
Frage kommenden Materialien zerfallen, grob gesagt, in zwei Kategorien: einerseits linguistisch vorverarbeitetes Material (Worterbucher, bestehende lexikalische Ressourcen,
linguistisch annotierte Textcorpora, linguistische Intuition), und andererseits \Rohmaterial", welches nicht vorverarbeitet, also nicht von Linguisten beschrieben ist. Rohcorpora
mussen zunachst vorverarbeitet werden (z.B. durch Tokenizing, Lemmatisierung, Annotation).
Die Anwendungs-Zone ist in dem Schema in Abbildung 2.1 durch verschiedene, als
Quadrate symbolisierte NLP-Anwendungen dargestellt, von denen jede uber eine AusgabeSchnittstelle mit Daten aus dem multifunktionalen Worterbuch versorgt wird. In Eurotra-7 geht man davon aus, da fur jede Zielanwendung ein Compiler zu erstellen ist,
der die Reprasentationen aus der \anwendungsneutralen" Darstellung der multifunktionalen Ressource in die anwendungsspezi schen Zielformate ubersetzt. Multifunktionalitat
ist nicht auf die Versorgung von NLP-Systemen beschrankt: auch eine Ressource, die
von \menschlichen Benutzern" und von NLP-Systemen abgefragt werden kann, wird in
Eurotra-7 (wie auch im vorliegenden Rahmen) als multifunktional betrachtet.

...

Verarbeitung

Base de Donnees
predictionnairique

...

Quellen:
z.B. Corpus

...
verschiedene
WoerterbuchTypen

Abbildung 2.2: Vereinfachtes Schema einer \Base de Donnees predictionnairique"


Das Schema in Abbildung 2.1 umfat beide Aspekte der Wiederverwendung lexikalischer
Information, die oben in Abschnitt 2.1.1 skizziert worden sind. Die Zonen von Akquisition und Reprasentation sind betro en, wenn die Wiederverwendung bestehender Ressourcen fur neue, ursprunglich nicht vorgesehene Anwendungen zur Debatte steht11 . Die
Reprasentations-Zone und die Anwendungs-Zone sind betro en, wenn neue multifunktionale Worterbucher konzipiert werden. In der praktischen Diskussion, wie sie z.B. in
[Boguraev/Briscoe 1989] gefuhrt wird, sind die beiden Fragestellungen oft verschmolzen.

2.1.1.3 Kritik und Erweiterung des Eurotra-7-Szenariums


Erweiterbarkeit der Datensammlung Das in Abbildung 2.1 dargestellte und oben

in Abschnitt 2.1.1.2 beschriebene Szenarium, das auf ein im Rahmen der Eurotra-7Studie erarbeitetes Schema zuruckgeht, wurde u.a. von [Kanngiesser 1995] kritisiert, weil
es in Eurotra-7 als statisch prasentiert wird. Eurotra-7 macht z.B. keine Aussage
daruber, ob die zentrale Reprasentation linguistischer Beschreibungen, die als Kern des
Wiederverwendungs-Szenariums aufgefat wird, irgendwelchen A nderungen (z.B. Anreicherungsprozessen) unterliegt. Die Frage tritt somit auf, ob die Schnittstellen fur Akquisition und Anwendung von lexikalischen Daten sich bei jeder A nderung der Beschreibungen,
welche das multifunktionale Worterbuch enthalt, ebenfalls andern mussen. U berspitzt formuliert, kann dem Modell vorgeworfen werden, da jede kleinste Erganzung der Beschreibungen in der Reprasentations-Zone sofort eine A nderung samtlicher Schnittstellen (z.B.
Compiler) zur Folge hat, die fur die Ableitung anwendungsspezi scher Lexika benotigt
werden.
Eine Antwort auf diesen Einwand soll in Abschnitt 5.2, unten, gegeben werden: wenn
die benutzten Reprasentationen modular konstruiert sind, wenn die einzelnen lexikalischen
Beschreibungen von Lemmata und ihren verschiedenen Lesarten aus lexemunabhangigen
Beschreibungsbausteinen kombiniert werden, und wenn schlielich die Schnittstellen zu
Anwendungen auf diesen Beschreibungsbausteinen, nicht auf den (in der Tat sehr spezi 11 Will man eine pre-dictionary fact base erstellen, die aus Corusmaterial gespeist werden kann, so sind
ebenfalls Akquisition und Reprasentation miteinanden zu verbinden.

schen) Lexem- oder Lesartenbeschreibungen aufsetzen, fuhrt die Erganzung des Lexikons
um neue Lesarten oder um neue Lemmata zu keinerlei A nderung der Compiler, mit denen
anwendungsspezi sche Worterbucheintrage erzeugt werden. Nur eine grundlegende A nderung des Beschreibungsmodells, d.h. des Inventars der Beschreibungsmittel fuhrt somit
zu A nderungen in den Compilern12.

Reversibilitat Ein weiterer Aspekt im Zusammenhang mit dem oben in Abbildung 2.1

angegebenen Schema mu beachtet werden: Das Schema enthalt Pfeile, die das Szenarium als eine Abfolge von verschiedenen Teilprozessen, d.h. als gerichtet bzw. sequentiell
(in der zeitlichen Abfolge) erscheinen lassen. Aus dem Schema lat sich herauslesen, da
zunachst Daten akquiriert werden, diese dann reprasentiert und schlielich an verschiedene Anwendungen weitergegeben werden: Man konnte sich corpusbasierte Lexikographie
als eine Instanz einer solchen Kette vorstellen (vgl. Abbildung 2.3): uber manuelle und
halbautomatische Extraktion aus Corpusmaterial wird ein (u.U. hierarchisches) Modell
erstellt, welches durch interaktive Dateneingabe weiter erganzt werden kann.
EXTRAKTION

DATENEINGABE
...

...

Abbildung 2.3: Schrittweise lexikalische Akquisition aus Textcorpora: Worterbuchaufbau


und -wiederverwendung als Kette von Einzelschritten?
Diese Vorstellung ist vielleicht fur einzelne Falle gultig, als Generalisierung aber wohl
etwas naiv. Vielmehr sollte man von folgenden Annahmen ausgehen:
 Lexikalische Akquisition verlauft nicht in einzelnen aufeinanderfolgenden, gerichteten Schritten, sondern in einem Hin und Her: ahnlich wie beim Prototyping von
Software, stellen wir uns die lexikalische Akquisition als einen \spiralformigen" Proze vor: lexikalische Beschreibungen werden erstellt, an Corpusmaterial getestet,
daraufhin verbessert, wieder getestet usw. Hieraus ergibt sich eine Notwendigkeit
zum Abgleich zwischen dem jeweils erreichten Zustand des lexikalischen Modells
(Reprasentation) und den untersuchten Quellen, und gleichzeitig die Notwendigkeit
des \evolutiven" Verhaltens der Reprasentation: A nderungen sind notwendig und
mussen ermoglicht bzw. vom Worterbuch(entwicklungs)system unterstutzt werden.
 Die sprachverarbeitenden Systeme, die im Szenarium oben in Abbildung 2.1 als
Anwendungen angegeben sind, konnen im Prinzip genauso wie Corpora als \Lieferanten" von lexikalischer Information auftreten. Die Schnittstellen mussen also
reversibel, d.h. in beide Richtungen benutzbar sein.
Eine schematische Darstellung der corpusbasierten Worterbucherstellung, die die genannten Aspekte berucksichtigt, ist in der Abbildung 2.4 gegeben.
12 Die Forderung nach Robustheit der Reprasentation gegenuber Lexikonmodi kationen gehort zu den
wichtigen Architekturprinzipien fur multifunktionale Worterbucher (vgl. Punkt 3 in Abschnitt 2.3
und die Beschreibung des Lexikonexports in 5.2).

QUELLCORPUS

LEXIKONMODELL

ANWENDUNGEN

(TFS)

Abbildung 2.4: Lexikalische Akquisition aus Corpora: Interaktion zwischen Quelle und
Reprasentation
Die Abbildung 2.4 stellt die Interaktion zwischen der lexikalischen Reprasentation und
der Quelle durch einen Doppelpfeil dar. Da von der Reprasentation zur Anwendung ein
gerichteter Pfeil verlauft, soll ausdrucken, da jeweils ein gegebener Modellzustand in das
Format einer Zielanwendung exportiert werden kann. Die Forderung nach Reversibilitat
(auch die NLP-Anwendungen, die als \Klienten" der multifunktionalen Ressource in dem
Schema in Abbildung 2.1 angegeben sind, konnen ihrerseits Daten-\Lieferanten" sein),
bleibt weiter gultig und ist mit dem Export von Einzelzustanden vertraglich13.

2.1.2 Reinterpretierbarkeit lexikalischer Beschreibungen

Im Hinblick auf Vorschlage fur multifunktionale Worterbucher (zweite der beiden Lesarten von \Wiederverwendung", oben in Abschnitt 2.1.1), erscheint es als sinnvoll, einige
Ergebnisse von Arbeiten zur Wiederverwendung bestehender Worterbucher als Quellen
(erste der zwei Lesarten von Abschnitt 2.1.1) mit in die Diskussion einzubeziehen. Die
Probleme, auf die man bei der \Um-Nutzung" bestehender Worterbucher stot, sollten
von vorneherein bei der Konzeption multifunktionaler Worterbucher vermieden werden.
Die folgende Diskussion zielt deswegen auf die Formulierung weiterer Anforderungen an
ein multifunktionales Worterbuch ab, wobei die Erfahrungen bei der Nutzung bestehender
Worterbucher in Anforderungen fur neue Worterbucher umgesetzt werden.
Die hier vorgetragene These ist, da detailliert dokumentierte Worterbucher weitgehend reinterpretierbar sind, und da durch Modularisierung und durch die Verknupfung
von ebenenspezi schen Teilbeschreibungen ein zusatzlicher Dokumentationse ekt entsteht.

2.1.2.1 Von Erfahrungen bei der Wiederverwendung traditioneller


Worterbucher zu Anforderungen an multifunktionale Worterbucher

Detaillierte Beschreibungen von praktischen Erfahrungen bei der Untersuchung maschinenlesbarer Versionen von traditionellen Worterbuchern nden sich in [Boguraev/Briscoe
1989] und der dort zitierten Literatur. Seit Erscheinen dieses Buchs sind naturlich noch
viele weitere Experimente dieser Art unternommen worden. Viele Beschreibungen solcher
praktischer Arbeiten sind jedoch sehr spezi sche Berichte uber Einzelfall-Untersuchungen.
13 Auf der Grundlage von Eurotra-7 wurde das hier und in Abbildung 2.4 beschriebene erweiterte
Szenarium in Arbeiten zum DELIS-Projekt entwickelt. Vgl. [Emele/Heid/Humphreys 1993], [Heid
1995a]. Vgl. auch die Diskussionen im Zusammenhang mit Worterbuch-Standardisierung in [Heid
1995b].

In [Heid/Christ/Heyn 1992] wird dagegen eine Synthese versucht: die wichtigsten Typen von Problemen, die bei der Wiederverwendung traditioneller Worterbucher auftreten konnen, werden anhand von Beispielen der Wiederverwendung des Oxford Advanced
Learners Dictionary, 3rd, electronic version, OALD3e 14 , zusammengestellt. Diese Zusammenstellung wird hier im Hinblick auf ihren Nutzen fur die Spezi kation multifunktionaler
Worterbucher diskutiert.
Im folgenden ist die Rede von traditionellen Worterbuchern. Als \traditionell" sollen
hier solche Worterbucher bezeichnet werden, die mit den bisher verfugbaren lexikographischen Arbeitsmethoden und Werkzeugen erstellt werden. Zu diesen Methoden gehort die
Verwendung von schriftlich vorliegenden Arbeitsanweisungen und Beschreibungsrichtlinien, wie sie oft in Instruktionsbuchern zu lexikographischen Projekten oder im \framework"
eines Worterbuchs zusammengestellt sind. Hierzu gehort auch die Benutzung von computergestutzten Methoden fur die Sicherstellung von typographischer Konsistenz in den
Worterbucheintragen15 .
\Traditionelle" Worterbucher sind also solche, bei deren Erstellung nur relativ wenig
Konsistenzkontrolle statt ndet oder diese Kontrolle ausschlielich auf die \Syntax" der
Worterbuchartikel als Texte, nicht auf deren Inhalt, bezogen ist. Typischerweise kann bei
solchen \traditionellen" Worterbuchern auch nicht oder nur zum Teil uberpruft werden, ob
sich beispielsweise alle Autoren, die Worterbuchartikel zu einem Worterbuch beisteuern,
an die Richtlinien des Instruktionsbuchs halten.
Das Oxford Advanced Learners Dictionary ist ein Beispiel fur ein solches traditionelles
Worterbuch. Da es fur Forschungszwecke auf einfache Weise zuganglich ist, wurde es in den
in [Heid/Christ/Heyn 1992] beschriebenen Experimenten als Untersuchungsgegenstand
ausgewahlt.
14 An dieser Stelle sei Oxford University Press dafur gedankt, da das Worterbuch in maschinenlesbarer
Form fur diese Arbeiten zur Verfugung gestellt wurde. Als die Arbeiten von Christ, Heid und Heyn
abgeschlossen waren, wurde von Oxford University Press auch die stark uberarbeitete 4. Au age des
Worterbuchs maschinenlesbar zur Verfugung gestellt. Viele der im OALD3e beobachteten Inkonsistenzen waren in OALD4 ausgeraumt worden. Die methodischen Betrachtungen, die in [Heid/Christ/Heyn
1992] und in [Heyn 1992] zusammengestellt sind, verlieren aber deswegen nicht ihren Wert. Sie bleiben, aus theoretischer Sicht, auch fur die Diskussion multifunktionaler Worterbucher relevant. Einen
Erfahrungsbericht uber die Probleme der Nutzbarmachung von OALD3e hat [Heyn 1992] gegeben.
Vgl. auch [Heyn/Christ/Heid 1992].
15 Die typographische Konsistenz von Worterbucheintragen kann weitgehend mit Hilfe von SGML
und SGML-basierten Werkzeugen sichergestellt werden. Es gibt Werkzeuge, die anhand einer
Dokumenttyp-De nition (DTD) uberprufen, ob die fur einen Worterbucheintrag relevanten Textelemente, wie etwa Lemma, Grammatikangabe, Bedeutungsdi erenzierung, Bedeutungserlauterung,
Beispielsatze usw. in der richtigen Reihenfolge angegeben werden. Zum Teil kann daruber hinaus
festgelegt werden, in welcher typographischen Auszeichnung die einzelnen Textelemente im fertigen
gedruckten Worterbucheintrag erscheinen sollen. Ein bekanntes Beispiel fur ein solches Werkzeug ist
GestorLEX von textWARE A/S, Kopenhagen.
Was jedoch nicht oder nur unzureichend de niert werden kann, ist der Inhalt der Beschreibungen, d.h.
beispielsweise die Wahl der Textstucke, die fur einen bestimmten Baustein der Mikrostruktur eingesetzt werden konnen. Eine solche De nition leistet ein Inhaltsmodell (eine lexikalische Spezi kation).
Die Erstellung vollstandiger lexikalischer Spezi kationen mit SGML ist sehr aufwendig und stot dort
an die Grenzen des moglichen, wo die Verwendung standardisierter Beschreibungsbausteine (wie sie
z.B. fur Wortart- oder Genusangaben verwendet werden konnen) nicht moglich ist. Auf Probleme
beim Fehlen eines Inhaltsmodells, wie sie in Multilex und Eagles aufgetreten sind, wird bei der
Diskussion von Worterbuch-Spezi kationen (vgl. Abschnitt 2.1.2.6) noch detaillierter eingegangen.

2.1.2.2 Reformatierung vs. Reinterpretation


Die praktische Arbeit der Extraktion linguistischer Information aus maschinenlesbaren
Versionen traditioneller Worterbucher besteht aus einer Reihe von Schritten, die in der
Praxis oft gleichzeitig oder in verschiedener Reihenfolge durchgefuhrt werden, jedoch konzeptuell voneinander getrennt werden mussen. Diese Schritte rechnen wir zu den beiden
Komplexen von Reformatierung und Reinterpretation: Bei der Informationsextraktion
geht es in der Regel darum, die vorhandenen Daten aus dem bestehenden Format in
ein gewunschtes Zielformat umzusetzen. Um diese Umsetzung bewerkstelligen zu konnen,
mu der Lexikograph oder Linguist jedoch ein Verstandnis fur die Beschreibungsmittel
entwickeln, die im Quellworterbuch verwendet werden, um eine korrekte \U bersetzung"
ins Zielformat anzufertigen. Dies setzt Reinterpretation der Quell-Daten voraus. Man kann
die Reinterpretation als einen Versuch zur \Rekonstruktion eines Worterbuchmodells16
aus dem fertigen Worterbuch" verstehen.
Die Reformatierung ist lediglich ein Proze der U bersetzung zwischen Reprasentationsformaten. Er kann im Extremfall ohne Analyse oder Interpretation der reprasentierten
Inhalte erfolgen, beispielsweise wenn es darum geht, SGML-markierte Textdaten in ein
anderes physikalisches Format zu uberfuhren, beispielsweise in Listen einer Programmiersprache wie LISP, oder in Eintrage einer Datenbank17 .
Demgegenuber bezeichnen wir als \Reinterpretation" den Proze der linguistischen
und lexikographischen (bzw. metalexikographischen) Analyse des Inhalts eines Worterbuchs, mit dem Zweck der Wiederverwendung fur eine andere als die geplante Anwendung.
In der Metalexikographie wird ublicherweise zwischen der deskriptiven und der prasentationellen Seite lexikographischer Arbeit unterschieden (vgl. auch Abschnitt 2.2.1). Die
Unterscheidung dient dazu, zwei Phasen, bzw. zwei Arten von lexikographischer Aktivitat
zu beschreiben:
 Einerseits die linguistische Beschreibungsarbeit, die in Materialsammlung, Materialstrukturierung und -organisation und in der Festlegung von Beschreibungen von
Lexemen und ihren Lesarten besteht. Diese deskriptive Arbeit kann auf einem mehr
oder weniger formalen oder formalisierbaren linguistischen Beschreibungsmodell beruhen (Datendeskription).
 Andererseits die lexikographische Prasentation. Unterschiedliche Prasentationsformen dienen dazu, die lexikographischen Datenbeschreibungen zielgruppenspezi sch
aufzubereiten und in gedruckten Worterbucheintragen dem Benutzer darzubieten.
Die Prasentation ist die \didaktische" Komponente der lexikographischen Arbeit,
wahrend die Datenbeschreibung die deskriptiv-linguistische Komponente ist18.
16 D.h. des Inhaltsmodells, der \Semantik" (im Gegensatz zur SGML-de nierten \Syntax"), der Worterbuchartikel.
17 Die Explizitheit von Textauszeichnungen in SGML erlaubt gerade eine solche \interpretationsfreie"
Reformatierung und stellt deren Erfolg sicher. Ein syntaktisch korrekter SGML-Text kann erfolgreich
reformatiert werden, ohne Reinterpretation.
18 Man wird beispielsweise syntaktische Konstruktionsangaben von Verben in einem Spezialworterbuch
zur Verbkonstruktion wie [Busse/Dubost 1983] anders prasentieren als in einem Lernerworterbuch fur
Auslander oder in einem Schulerworterbuch fur Heranwachsende. Beispiele hierzu (fur zweisprachige
Worterbucher) in Abschnitt 2.2.1. Die beschriebenen Fakten in den verschiedenen Worterbuchern bleiben jedoch (weitgehend) dieselben, die Prasentations-Unterschiede beziehen sich auf den \Wortlaut"
der Worterbuchartikel.

Bei der Festlegung der Prasentation von lexikalischen Beschreibungen bedienen sich die
Lexikographen eines reichhaltigen Inventars von Textstrukturierungsmitteln (Typographie, Symbole, Abkurzungen, Interpunktionszeichen usw.). Diese Textstrukturierungsmittel sind einer der wichtigsten Anhaltspunkte bei der Reinterpretation lexikalischer
Beschreibungen: der Worterbuchtext tritt in einer bestimmten Prasentationsform zutage; was gleich prasentiert ist, wird zunachst als Information von potentiell gleichem Typ
interpretiert.

2.1.2.3 Reinterpretation und Dokumentation des Beschreibungsmodells


Die Aufgabe der Reinterpretation ist es, aus den aufgrund gleicher Prasentation als gleichartig erkannten Angaben in Worterbuchartikeln relevante Teile des linguistischen Beschreibungsmodells zu rekonstruieren, welches bei der Worterbuchproduktion zugrundelag. Je besser wir das zugrundeliegende Beschreibungsmodell aus den Einzelbeschreibungen, die im Worterbuch vorgefunden werden, rekonstruieren konnen, desto weitergehend
lat sich das Worterbuch reinterpretieren, und desto besser lat es sich wiederverwenden.
Aus der Arbeitsweise bei der Reinterpretation leitet sich eine weitere Anforderung
an ein multifunktionales Worterbuch ab: die Forderung nach detaillierter Dokumentation. Die Reinterpretation anhand von Worterbuchartikeln \gleicht einem Indizienproze":
sie fuhrt zur Rekonstruktion des lexikographischen Beschreibungsmodells anhand von
Beispieleintragen, post mortem. Wenn die Kriterien dokumentiert sind, nach denen die
Angaben im Worterbuch formuliert werden, dann ist diese Dokumentation eine erheblich
bessere Quelle fur die Reinterpretationsarbeit als es die Worterbuchartikel sein konnen;
die typographischen Prasentationsmittel in den Angaben sind z.B. oft mehrdeutig19. Je
detaillierter die Kriterien dokumentiert sind, die bei der Erstellung des Worterbuchs fur
die Klassi kation lexikalischen Materials zugrundegelegt worden sind, desto leichter fallt
die Reinterpretation und damit die Wiederverwendung der lexikalischen Ressource.
Im Rahmen des Wiederverwendungs-Szenariums, welches oben in Abbildung 2.1, Seite
24 skizziert wurde, spielen Reformatierung und Reinterpretation an zwei Stellen eine Rolle: sowohl fur die Akquisition als auch fur die Anwendung linguistischer Beschreibungen.
Die Nutzbarmachung von Quellen bei der Akquisition benutzt diese beiden Verfahren.
Die Compiler, welche anwendungsspezi sche Beschreibungen aus der \multifunktionalen
Reprasentation" ableiten, beruhen ebenso auf Reinterpretations-Regeln und den zugehorigen Reformatierungsanweisungen, die im Hinblick auf die speziellen Formatbedurfnisse der
Anwendung formuliert worden sind20.
Genauso mu dort, wo versucht wird, ein standardisiertes Worterbuch zu entwickeln,
sowohl das Format (d.h. der Reprasentationsformalismus), als auch und insbesondere die
\Semantik" der Beschreibungen (d.h. das Inhaltsmodell) de niert, dokumentiert und damit reinterpretierbar gemacht werden. Der Standard kann nur als Basis fur den Austausch
zwischen verschiedenen Parteien funktionieren, wenn diese eine gemeinsame prazise Vorstellung von den zugrundeliegenden Beschreibungsintuitionen und der Abdeckung des
beschriebenen Fragments haben.

19 Eine kursive Auszeichnung z.B. kann fur mehrere Angabetypen stehen.


20 Beispiele fur diese Art von Kompilierung werden unten in Abschnitt 5.2 diskutiert.

2.1.2.4 Dokumentation durch untereinander verbundene


Teilbeschreibungen

Ein gemeinsames Inhaltsmodell fur ein Worterbuch, das als Standard, zum Austausch
zwischen verschiedenen Anwendern dienen soll, ist sicherlich nicht eine irgendwie geartete
neue linguistische Theorie (vgl. die Diskussion uber das \polytheoretische" Worterbuch,
seine Moglichkeit oder prinzipielle Unmoglichkeit, in [Zampolli 1994]); es ist nicht realistisch, anzunehmen, da irgend jemand mit \den bestmoglichen Generalisierungen" uber
eine relevante Menge von linguistischen Fakten aufwarten kann. Vielmehr geht es darum,
einen Vorschlag fur eine standardisierte lexikalische Reprasentation dadurch benutzbar
zu machen, da die linguistischen Informationen des Worterbuchs und die Kriterien, die
den jeweils verwendeten Beschreibungen und den auf ihrer Grundlage etablierten Klassi kationen zugrundeliegen, moglichst explizit gemacht werden. Statt neue linguistische
Generalisierungen anzustreben, ist es fur die Entwicklung von multifunktionalen Worterbuchern sicherer, auf Generalisierungen dort zu verzichten, wo sie zusehr von einer
bestimmten Anwendung beein ut waren, selbst um den Preis von Redundanz.
Die Explizierung von Klassi kationskriterien kann durch schriftlich xierte Kriterienkataloge erfolgen; es ist mitunter aber noch ezienter, wenn Beschreibungen der \abstrakteren" linguistischen Ebenen (z.B. Pradikat-Argument-Strukturen, lexikalisch-semantische
Information) mit Beschreibungen der \weniger abstrakten, ober achennahen" Ebenen
(z.B. der kategorialen und morphosyntaktischen Ebene) korreliert werden: dadurch soll
\Unbekanntes" an bekannte und (mindestens weitgehend) allgemein akzeptierte und intersubjektiv nachvollziehbare Klassi zierungen angebunden werden. In der Eurotra-7Studie wurde der Vorschlag gemacht, Klassi zierungen an in Corpora identi zierbaren
Unterscheidungen festzumachen, wo immer dies moglich ist.
Fur manche komplexen Beschreibungsmittel lassen sich de nitionsrelevante Fakten
angeben, deren Vorliegen direkt in Textcorpora uberprufbar ist. Beispielsweise kann man
fur das Vorliegen der grammatischen Funktionen Subjekt und Objekt \Anhaltspunkte" auf der kategorialen und der Phrasenstrukturebene, identi zieren. Auf diesem Prinzip
beruht auch der Teil der linguistischen Corpuserschlieung, der darauf abzielt, \hohere" syntaktische Beschreibungsmuster (z.B. syntaktische Kategorien) auf \part-of-speechshapes" (POS-Shapes) abzubilden und so im Corpus identi zierbar zu machen: hier werden Phrasenbeschreibungen abgebildet auf Beschreibungen von Sequenzen von kategorial
und morphosyntaktisch annotiertem Material21; dieser Zusammenhang ist schematisch in
Abbildung 2.5 anhand der Nominalphrase the little boy dargestellt.
Um fur die Worterbucheintrage des DELIS-Projekts eine (teilweise) U berprufbarkeit
in vorverarbeiteten und linguistisch annotierten Textcorpora zu ermoglichen, wurde als
\Schnittstelle" die Ebene der phrasenstrukturellen Beschreibung von subkategorisierten
Verbkomplementen gewahlt: lexikalische Beschreibungen der \hoheren" Ebenen werden
durch Abbildungen auf POS-Shapes dokumentiert. Die U berprufung im Corpus erfolgt
durch Identi kation der den POS-Shapes entsprechenden Beispiele. Dieser Zusammenhang
21 Allgemeiner kann man den Zusammenhang zwischen lexikalischen Beschreibungen und Corpusbeschreibungen als System von Abbildungen zwischen (sozusagen \synchronisierten") ebenenspezi schen
Teilbeschreibungen au assen. Auf dem Stand von Forschung und Entwicklung von 1995 liegen in der
Regel Textcorpora lediglich kategorial und morphosyntaktisch annotiert, allenfalls mit phrasenstrukturellen Annotationen versehen vor. Worterbucher enthalten dagegen meist Information von \hoheren"
Beschreibungsebenen, wie (quantorenfreie rudimentare) semantische Pradikat-Argument-Strukturen
oder Subkategorisierungsbeschreibungen unter Angabe von grammatischen Funktionen.

Syntaktische
KategorienAnnotationen
(Phrasen-Typen)

NP

WortklassenAnnotationen

Wortformen

The

A
little

...

...

boy

...

looks

...

Abbildung 2.5: \Part-of-speech-Shapes": Zusammenhang zwischen Beschreibungsmitteln


von zwei linguistischen Ebenen
ist in Abbildung 2.6 schematisch dargestellt; fur das Englische wurden die Abbildungen
in DELIS formalisiert und in einem speziellen Werkzeug, dem \DELIS Search Condition
Generator", angewendet22 .
..
PRADIKATARGUMENTSTRUKTUREN

Verb (Agens,Thema)
Verb (X,Y)

SUBKATEGORISIERUNG
VON VERBEN
POS-SHAPES
..
FUR
PHRASENTYPEN
KATEGORIALE &
MORPHOSYNTAKT.

Verb SUBJ, OBJ

NP

...

V ...
NP ... V ... NP

D A N

...

V ...

ANNOTATION

WORTFORMEN

CORPUS

LEXIKON

Abbildung 2.6: Dokumentation von lexikalischen Beschreibungen durch Explizierung von


Zusammenhangen zwischen den Beschreibungsebenen: Lexikon $ Corpus
Wie die einzelnen ebenenspezi schen Teilbeschreibungen durch Explizierung ihrer Zusammenhange dokumentiert werden konnen, so konnen im Prinzip Zusammenhange zwischen
verschiedenen, z.B. anwendungsspezi schen Einzelbeschreibungen, dadurch zueinander in
22 Vgl. die Beschreibung in [Heid 1995c], sowie die Regeln in [Jauss 1994] und die De nition des Abbildungsmechanismus in [Linden 1994]. Durch die automatischen Abbildungen entsteht eine Moglichkeit
zu uberprufen, welche Teile eines Textcorpus durch die Worterbucheintrage \abgedeckt" sind. Auerdem kann das Abbildungswerkzeug dazu benutzt werden, da der Lexikograph nur die fur seine
Arbeit relevanten Belege aus dem Corpus extrahiert (\lexikographische Relevanz").

Beziehung gesetzt werden, da sie jeweils auf eine Menge von de nitionsrelevanten Teilbeschreibungen abgebildet werden. Hierdurch wird die Reinterpretation der einzelnen anwendungsspezi schen Angaben ermoglicht. In Eurotra-7 wurde dieser Ansatz mithilfe
der in Abbildung 2.7 wiedergegebenen Graphik schematisch dargestellt.

Definition
nach Ansatz A-1
Definition
nach Ansatz A-2

Definitionsrelevante Fakten

Abbildung 2.7: Dokumentation von anwendungsspezi schen Beschreibungen durch Abbildung auf de nitionsrelevante Fakten (nach Eurotra-7, vgl. [Heid 1991a])
Es ist einleuchtend, da der hier skizzierte Ansatz nur zu einem bestimmten Teil realisiert
werden kann.


Einerseits besteht zwischen bestimmten theoretischen Ansatzen zur Beschreibung


ein und desselben Phanomens ein Widerspruch, der nicht durch ein \Herunterbrechen" auf andere Teilbeschreibungen aufgelost werden kann, weil die beteiligten
Sprachtheorien dasselbe Phanomen gegensatzlich klassi zieren. Beispiele hierfur gibt
[Kanngiesser 1995].

Andererseits ist auch die Grenze, bis zu der herunter einzelne Teilbeschreibungen
aufgelost werden mussen, damit die zugrundeliegenden Kriterien explizit gemacht
werden konnen, nicht immer vollstandig klar.

Fur den zweiten Aspekt hier ein Beispiel aus dem Bereich der Morphosyntax: In einem
System zur Analyse (und ggf. U bersetzung) deutscher Satze wird man beispielsweise eine
Morphologiekomponente haben, die morphosyntaktische Beschreibungen von deutschen
Wortformen produziert. Solche Beschreibungen dienen einerseits als Grundlage fur weitere Analyseschritte, z.B. mithilfe einer Grammatik, die phrasenstrukturelle Konstrukte und
grammatische Funktionen und schlielich Satzstrukturen identi zieren kann. Andererseits
sollen die von der Morphologiekomponente produzierten Wortformenbeschreibungen auch
als Eingabe fur (separate) Corpusabfrage oder fur die Identi kation bestimmter linguistischer Phanomene mithilfe von Pattern-Matching auf der Grundlage von POS-Shapes
dienen.
In der praktischen Arbeit an einem System, welches die genannten Erfordernisse zusammenbringen soll, hat sich wiederholt gezeigt, wie unterschiedlich die Anforderungen
solcher auseinanderliegender NLP-Anwendungen sind: fur die im Deutschen als Korrelate

verwendeten Wortformen (z.B. daran, dafur, damit, etc.) liefert die Morphologiekomponente eine kategoriale Beschreibung (als Pronominaladverb), sowie ggf. eine distributionelle Subklassi zierung. Eine Grammatik wird denselben Wortformen auf der Ebene der
phrasenstrukturellen Konstrukte u.U. eine komplexe Struktur zuweisen, aus der hervorgeht, da die als Korrelat verwendeten Wortformen \Platzhalter" fur Prapositionalphrasen sind (wobei die Komponenten -an, -fur, -mit auf die entsprechenden Prapositionen
hinweisen und die Komponente da- bzw. da(r)- den nominalen bzw. pronominalen Charakter ausmacht).
Soll ein und dieselbe Morphologiekomponente als Informationslieferant fur die MU Grammatik und fur die Corpusabfragewerkzeuge dienen, dann wird es schwierig, eine sehr
detaillierte gemeinsame Reprasentation zu nden. Wird die Reprasentation zu stark an
den Anforderungen einer Anwendung ausgerichtet, so kann man sicher sein, da die andere
Anwendung damit erhebliche Schwierigkeiten hat. Deswegen werden Abbildungsregeln
zwischen dem Morphologie-Output und den anwendungsspezi schen Zielreprasentationen
formuliert, die von der Morphologiekomponente erzeugte lexikalische Beschreibungen in
der fur die jeweilige Anwendung relevanten Weise anreichern.
Eine Morphologiekomponente ist ein typisches Beispiel fur eine multifunktionale lexikalische Beschreibung, die verschiedene NLP-Anwendungen unterstutzt. Entsprechend
sollte ihre Ausgabe genauestens dokumentiert, jedoch nicht mit Spezi ka \beladen" sein,
welche von einzelnen Anwendungen gefordert werden. Die Abbildungsregeln zwischen
Morphologie und Grammatik, oder zwischen Morphologie und Corpusabfragesystem sind
Beispiele fur die in Abbildung 2.1 schematisch dargestellten \Compiler" zu den Anwendungen23 .
Man kann die prinzipielle Machbarkeit multifunktionaler Worterbucher in Abrede stellen und Versuche in dieser Richtung, wie sie z.B. in Eagles (vgl. [Calzolari/Monachini
1993]) oder in Comlex (vgl. [Grishman/MacLeod/Meyers 1994] und [Grishman/MacLeod
1994]) unternommen werden, als anwendungsspezi sche Worterbucher beurteilen. Man
kann aber auch, wie z.B. im Projekt WordManager (vgl. [Domenig/ten Hacken 1992]),
im Sinne einer \pragmatischen" Losung Lexika fur diejenigen Teilfragmente aufzubauen
versuchen, fur die mit einiger Aussicht auf Erfolg eine detaillierte und von einzelnen spezi schen Anwendungen weitgehend unabhangige Beschreibung moglich ist.

2.1.2.5 Typische Probleme bei der Wiederverwendung traditioneller


Worterbucher

In den vorausgehenden Abschnitten sind einige allgemeine Aspekte der Reinterpretation


von lexikalischer Information diskutiert worden. Im Folgenden soll gezeigt werden, welche konkreten Anforderungen fur multifunktionale Worterbucher sich aus der praktischen
Arbeit zur Reinterpretation von traditionellen Worterbuchern ableiten lassen. Es werden
kurz einige der wichtigsten Ergebnisse von Untersuchungen aus den Jahren 1991/92 referiert, deren Ziel eine Abschatzung des Aufwands war, der getrieben werden mute, um
23 Eine ahnliche Sicht auf die Rolle einer Morphologiekomponente und des zugehorigen Lexikons
als anwendungs-neutraler lexikalischer Wissensquelle hat [Domenig/ten Hacken 1992] usw. Das
WordManager-System ist nach unserer Kenntnis das umfangreichste und von der Konzeption her
ausgereifteste System fur eine anwendungsunabhangige Morphologiekomponente. Im Rahmen von
WordManager wird gleichzeitig die Idee eines Lexikon-Servers verfolgt, d.h. einer Implementierung
in einem Client-Server-Modell, in welchem die Lexikonkomponente auch implementierungsseitig als
anwendungsunabhangig verstanden wird.

aus dem OALD3e Informationen zu extrahieren, die fur ein sprachverarbeitendes System
verwendet werden konnten. Gleichzeitig mit dem Aufwand fur die Extraktion wurde auch
uberpruft, welche Art von linguistischer Information extrahiert werden konnte und fur
welche NLP-Anwendungen diese Inforamtion nutzlich sein konnte. Die Ergebnisse der Untersuchung sind im Detail in [Heyn 1992], sowie zusammenfassend in [Heid/Christ/Heyn
1992] und [Heyn/Christ/Heid 1992] dokumentiert.
Die wichtigsten Klassen von Problemen, die bei der Analyse des OALD3e zutage getreten sind, sind nachfolgend zusammengestellt. Aus der Beschreibung der Probleme ergibt
sich jeweils eine Forderung fur die Gestaltung multifunktionaler Worterbucher; in der
folgenden Liste sind deswegen die in bestehenden Worterbuchern beobachteten Probleme jeweils zusammen mit Forderungen fur die Gestaltung zukunftiger multifunktionaler
Worterbucher angegeben.
1. Konsistenz: Bei der Analyse gedruckter Worterbucher fallen deskriptive Lucken auf,
bzw. Falle, wo ein gegebener Worterbuchartikel nicht alle jene Teilbeschreibungen
aufweist, die andere Artikel desselben Typs ublicherweise enthalten24 . Das Instruktionsbuch (oder das \Framework") eines Worterbuchs de niert meist bestimmte
Verfahren fur die Beschreibung bestimmter Klassen von Lemmata. Solche Anweisungen werden im OALD3e oft nur teilweise durchgehalten. Solche Lucken ruhren
daher, da die Artikelstruktur im ublichen Worterbucherstellungsproze nur einer
schwachen Kontrolle unterliegt. Im OALD3e treten verschiedene solcher Falle auf.
Ein multifunktionales elektronisches Worterbuch mu so konzipiert sein, da Eintrage desselben Typs analoge Beschreibungen erhalten. Es mu ein \Minimal-Inventar" von Angaben fur jeden Typ von Worterbuchartikel geben. Der Lexikograph
mu gezwungen sein, Beschreibungen von Lexemen, die er in eine gemeinsame Klasse aufnehmen mochte auch mit denselben Attributen und mit Werten aus demselben
Wertebereich zu beschreiben.
2. Eindeutige Beschreibungsmittel: Bei der Analyse gedruckter Worterbucher fallt auf,
da es sowohl polyfunktionale Angaben gibt, als auch synonyme Wertenamen.
Unter \polyfunktionalen Angaben" verstehen wir solche Bauteile der Mikrostuktur von Worterbuchartikeln, bei denen ein und dieselbe Form von Angabe zur Beschreibung verschiedener Typen von linguistischen Phanomenen dient. Im OALD3e
werden beispielsweise \pluralia tanta" und unregelmaige Pluralformen mit derselben Angabe ausgezeichnet. Es bleibt dem Worterbuchbenutzer und seiner (Worterbuch-externen) Sprachkompetenz uberlassen, die im Kontext des jeweiligen Worterbucheintrags richtige Interpretation der Angabe zu identi zieren.
Da fur ein multifunktionales elektronisches Worterbuch in der Regel eine Automatisierung der (Re-)Interpretation angestrebt wird, sind polyfunktionale Angaben zu
vermeiden: sie konnen nicht oder nur mit extremem Aufwand reinterpretiert werden; meist lohnt sich die Formulierung von (heuristischen) Reinterpretationsregeln
nicht.
\Synonyme Wertenamen" liegen dort vor, wo derselbe Sachverhalt durch verschiedene Werte eines Attributs (oder durch verschiedene Angabeformen, bzw. Etiketten
24 Auf der Grundlage einer detaillierten Diskussion eindrucklicher Beispiele fordert [Verkuyl 1994] Konsistenz im Worterbuch, und zwar nicht nur hinsichtlich der Prasentation, sondern auch (und primar)
hinsichtlich der (semantischen) Beschreibung.

Ausgewahlte Kategorieangaben Absol. Anz. %-Anteil


n
20985 53.44%
adj
7001 17.83%
vt
4870 12.40%
vi
2788
7.10%
adv
2736
6.96%
adv of degree
5
0.01%
adv of place and direction
1 0.0025%
pron
65
0.16%
pers pron
6
0.01%
emphat pron
2 0.0050%
emph pron
1 0.0025%
re ex pron
1 0.0025%
interr pron
3 0.0076%
interr adv
2 0.0050%
interr adj
1 0.0025%
Tabelle 2.1: Verteilung von Kategorieangaben im OALD3e
innerhalb einer Angabe in der Mikrostruktur eines gedruckten Worterbuchs) beschrieben wird. Das OALD3 hat beispielsweise \pred" und \predadj", wobei beide
Werte dazu dienen, pradikative Adjektive auszuzeichnen. Ein Blick in die Frequenzliste der Kategorieangaben in OALD3e (vgl. die auszugsweisen Angaben in Tabelle
2.1) zeigt die Probleme, die sich aus synonymen Angaben ergeben; das Worterbuch enthalt 78 verschiedene Wortklassenangaben. Von der Gesamtzahl der mit
Wortklassenangaben ausgezeichneten Eintrage entfallen 98% auf Belege fur die 4
Hauptkategorien (Nomen, Verb, Adjektiv, Adverb); die ubrigen 74 Kategorie-Werte
machen zusammen 2% der Erscheinensstellen aus. Einige Werte kommen im ganzen
Worterbuch nur ein einziges Mal (z.B. \reflex-pron") oder unter 5 Mal vor. Darunter gibt es zahlreiche synonyme Wertenamen (vgl. emphat-pron und emph-pron).
Die Wertenamen in einem multifunktionalen Worterbuch mussen eindeutig sein;
ublicherweise nimmt man an, da unterschiedliche Phanomene durch unterschiedliche Angaben (oder z.B. unterschiedliche Werte eines Attributs) beschrieben werden.
Diese Grundregel der Reinterpretation mu bei der Erstellung eines Worterbuchs
beachtet werden.
3. Implizite Angaben: In gedruckten Worterbuchern wird oft auf das Worterbuchexterne Sprachwissen des Benutzers rekurriert. Beispielsweise werden im OALD3e
bei Substantivformen auf -tion keine Kategorieangaben gegeben, weil o enbar angenommen wird, da der Benutzer die Kategorie aus der Form des Eintrags erschlieen
kann. Diese Moglichkeit besteht im elektronischen Worterbuch nicht; deswegen mu
dort auf implizite Angaben verzichtet werden.
Viele der hier zusammengestellten Probleme, die bei der Reinterpretation gedruckter Worterbucher Schwierigkeiten bereiten, treten in ahnlicher Weise auch bei elektronischen Wor-

terbuchern auf, die ohne strenge Konsistenzkontroll-Mechanismen produziert werden. Viele dieser Probleme konnen vermieden werden, wenn dem Worterbuch eine formale Spezi kation zugrundeliegt, die automatisch, z.B. mit den Mitteln eines computerlinguistischen
Formalismus, uberwacht werden kann25.

2.1.2.6 Wozu lexikalische Spezi kationen? Probleme beim Fehlen von


Spezi kationen
Oben wurden Probleme diskutiert, die bei der Wiederverwendung traditioneller Worterbucher auftreten und folglich bei der Konzeption multifunktionaler Worterbucher vermieden werden mussen. A hnliche Probleme gibt es auch bei von vorneherein fur elektronische
Anwendungen konzipierten lexikalischen Beschreibungen, sofern diese nicht auf formalen
oder formal darstellbaren Spezi kationen beruhen. Einige Beispiele hierfur werden nachfolgend diskutiert.
In den formalen Sprachen beschreibt eine formale Spezi kation eine Menge von wohlgeformten Objekten, und nur diese. In formalen Grammatiken fur die Sprachverarbeitung
wurde dieses Konzept ubernommen, und die Grammatikregeln werden als eine Spezi kation aufgefat, die eine Menge wohlgeformter Satze (ein Fragment) beschreibt, und nur
diese wohlgeformten Satze. Wir schlagen vor, auch Worterbucher als Spezi kationen in
diesem Sinne anzulegen: die Worterbuchspezi kation beschreibt die Menge wohlgeformter Wortbeschreibungen (oder Wortformenbeschreibungen) und nur dies; sie de niert in
diesem Sinne ein Worterbuchfragment.
Der Gedanke, Worterbucher als Spezi kationen zu formulieren, ist relativ neu. Beispielsweise wurde in den Worterbuchern des Multilex-Projekts, die 1992/93 abgeschlossen wurden, nicht der Versuch unternommen, eine lexikalische Spezi kation bereitzustellen26. Dasselbe gilt fur Corpus-Annotationsschemata, wie sie z.B. im Rahmen von Eagles
(Expert Advisory Groups on Linguistic Engineering Standards27 ) in den Jahren 1993 bis
1995 erarbeitet wurden (\Tagsets", vgl. die Vorschlage von [Heid/Schiller/Teufel 1993],
als Kritik am Eagles-Dokument [Calzolari/Monachini 1993]28). Im folgenden werden
25 Im folgenden Abschnitt 2.1.2.6 werden Beispiele dafur gegeben, welche Arten von Inkonsistenzen auch
bei von vorneherein fur elektronische Verwendung konzipierten lexikalischen Beschreibungen auftreten konnen, wenn keine formale Spezi kation zugrundeliegt, deren Einhaltung automatisch uberpruft
wird.
Hier wird der TFS-Formalismus als Reprasentationsformalismus fur ein multifunktionales Worterbuch
verwendet. Probleme von Konsistenz, Polyfunktionalitat und Synonymie von Angaben und Werten,
sowie, zu einem Teil Probleme der Implizitheit von Angaben konnen mit einer TFS-Spezi kation vermieden werden weil diese systemseitig uberpruft werden kann. Deskriptive Lucken konnen mit diesen
Mitteln nur aufgespurt, aber naturlich nur zum Teil bei der interaktiven Dateneingabe vermieden
werden.
26 Die Ergebnisse von Multilex sollen in Buchform vero entlicht werden; die linguistischen Beschreibungsvorschlage sind in [Ahmad et al. 1993] zusammengefat. Vgl. auch [Modiano 1994].
27 EAGLES ist ein zum Teil von der Europaischen Kommission, DG XIII E4, Luxenburg, gefordertes Projekt, im Rahmen des LRE-Porgramms (Linguistic Research and Engineering, Projekt LRE-61.100).
Der Projektzeitraum ist 1993 bis Fruhjahr 1996.
28 Dem hier zitierten Dokument von [Calzolari/Monachini 1993] (Stand 03/95) ging eine Vorversion
(11/93) voraus; die in [Heid/Schiller/Teufel 1993] vorgeschlagenen A nderungen wurden in die Version
von Fruhjahr 1995 von [Calzolari/Monachini 1993] noch nicht ubernommen, weil eine U bernahme nur
dann ezient moglich ist, wenn die Modellierung von einem geeigneten Formalismus getragen wird.
Ein solcher Formalismus wird in Eagles durch Benutzung einer getypten PROLOG-Modellierung
(analog zu TFS) bereitgestellt (vgl. [Teufel 1995a]).

zunachst einige Beispiele aus Arbeiten von Eagles diskutiert, die zeigen sollen, welche
Probleme das Fehlen einer Spezi kation fur die Modellierung eines Gegenstandsbereichs
auslost.
In den Arbeiten der Eagles-Gruppe zur Entwicklung eines Standards der morphosyntaktischen Beschreibung von lexikalischen Einheiten (vgl. [Calzolari/Monachini 1993])
wurden zunachst nur Etiketten fur die Annotation von Wortformen (\Tags", das Vokabular der Beschreibung) vorgeschlagen, aber keine detaillierte Beschreibung der Syntax
und Semantik der Kombination dieser Etiketten gegeben. Ein Beispiel ist die in Tabelle
2.2 dargestellte Sammlung von Etiketten fur die morphosyntaktische Beschreibung von
Substantiven der neun \alten EG-Sprachen".
Die Tabelle enthalt das Vokabular, aus dem Beschreibungen von Wortformen (in diesem Fall Flexionsformen von Nomina) genommen werden konnen; sie besteht aus zwei
Teilen.
 Der obere Teil ist ein Vergleich bestehender Inventare von morphosyntaktischen Etiketten, die in europaischen Lexikonprojekten (Multilex, Genelex) und in Vorschlagen zur Corpusannotation (Nerc (Network of European Reference Corpora),
Arbeiten von Geo rey Leech im Rahmen der Eagles-Corpus-Gruppe) benutzt wurden. Der Gedanke, ein fur ein Projekt, eine Arbeitsgruppe, etc. verbindliches Inventar von Etiketten zu scha en, mit dem Wortformen annotiert werden, steht in der
corpuslinguistischen Tradition der Tagsets. Die in den bekannten Corpusprojekten
(vor allem zum Englischen) entwickelten Tagsets sind solche Sammlungen von Etiketten fur Wortformen29.
 Der untere Teil der Tabelle 2.2 enthalt Vorschlage von Eagles f
ur ein standardisiertes Etiketteninventar, in vier Schichten. Die Ebene L0 enthalt nur die Kategorieangabe; L1 enthalt obligatorische Beschreibungen. Ebene L2a enthalt fakultative
Beschreibungen, die zu L1-Beschreibungen hinzutreten konnen und fur eine groere
Anzahl von Sprachen (mindestens drei) gelten. Die Ebene L2b enthalt sprachspezi sche Beschreibungen.
Die Tabelle 2.2 enthalt zwar nur Etiketten fur Wortformen, aber man kann sie im Sinne
einer Beschreibung in Attribut-Wert-Paaren reinterpretieren. Die Kolonnentitel konnen
als Attributnamen interpretiert werden (z.B. Type, Gend(er), Numb(er), Case, ...);
die Zeilen der Tabelle (L0, L1, L2a, L2b) geben das \Empfehlungsniveau" (obligatorisch,
fakultativ) an, die Eintrage in den Zellen werden als Werte interpretiert. Beschreibungen
der Empfehlungsniveaus L0 und L1 werden uni ziert; die Berucksichtigung von L2a und
L2b ist allerdings nicht von vorneherein formal geregelt.
Vielmehr zeigt sich hier, wie sich das Fehlen einer formalen Spezi kation auswirkt, die
als Interpretationsvorschrift fur das \Lesen" der Etiketteninventare dienen konnte30 :
 \[Gend: (It) c]" auf Ebene L2b ist ein \Macro". Es handelt sich um eine Abk
urzung,
die fur eine Disjunktion (\c = m j f") steht31 ;
29 Vgl. z.B. die detaillierte Diskussion des Susanne-Corpus und des zugehorigen Tagsets bei [Sampson
1995].
30 Hiermit sollen die prinzipiellen Verdienste von Eagles, speziell aus der Sicht der Standardisierung,
nicht geschmalert werden.
31 Die Abkurzung \c" steht fur \common (gender)" und beschreibt Formen wie l'insegnante capace { gli
insegnanti capaci.

Type Gend
com m
prop f
n

G
e
n
A
l
D
N
E
R
C

com
prop

m
f

m
f
n
m
f
m+f

sg
pl

L
e
e
c
h

com
prop

m
f
n
c

sg
pl

com
prop

m
f
n

sg
pl

M
u
l
t

L0
L
1

com
prop

Numb Case
sg
nom
pl
gen
dat
acc
voc
sg
pl

sg
pl
s+p

L
2
a
L
2
b

It c
It n
Du f(m)
Du cont
Sp trns
Sp notr

nom
gen
dat
acc
bas
nom
gen
dat
acc
voc
bas

Count De n
cou
mass

In ect

cou
mass

NOUN

nom
cou
gen
mass
dat
acc
Gr voc
Gr ind

Da def
Da/Ge weak
Da indf Da/Ge strg
Da unmk Da/Ge mix

Tabelle 2.2: Etiketten fur die Beschreibung von Substantiven in Corpus- und Lexikonannotationen von Eagles, nach [Calzolari/Monachini 1993]

\[Case: (Gr) voc]" auf Ebene L2b ist dagegen ein neu hinzutretender Wert (\Vokativ"); fur die meisten Sprachen gilt:
[Case: nom j gen j dat j acc ].
Fur das Neugriechische wurde jedoch de niert:
[Case: nom j gen j dat j acc j voc].
 \[Case: (Gr) ind]" ist eine versteckte nicht-monotone Beschreibung. Sie sagt aus,
da die durch das Attribut und seine Werte denotierte Beschreibungsdimension fur
ein gegebenes linguistisches Objekt nicht relevant ist und de niert dadurch Ausnahmefalle (ind fur \indeclinable"). \[Case: ind]" wird an Nomenformen (des Neugriechischen) zugewiesen, bei denen keine Kasusmarkierungen sichtbar sind.
In den Beispielen werden Etiketten nebeneinandergestellt, ohne da ihre Interaktion deutlich gemacht wird: \c" in \[Gend: (It) c]" ersetzt andere Werte (\m" und \f"), \voc"
tritt zu den bestehenden Werten hinzu, \ind" setzt die Anwendbarkeit eines Attributs
auer kraft. Alle Falle sind gleich notiert.
Da die Modellierung die Benutzung verschiedenartiger Kombinationsvorschriften fur
die Etiketten notwendig machen kann, steht auer Frage; der benutzte Formalismus soll
die dazu notwendigen Verfahren bereitstellen. Aber dies ist nur moglich, wenn die verschiedenen Modellierungsverfahren (und ihre zugehorigen Interpretationen) klar unterscheidbar sind. In der in Tabelle 2.2 reproduzierten Eagles-Beschreibungen fehlt eine
Interpretationsvorschrift, wie sie beispielsweise durch die eine constraint-basierte Spezi kation gegeben wird; sonst mu man eine detaillierte Kenntnis von Eagles (oder von
den behandelten Sprachen) haben, um die einzelnen Angaben in der Tabelle eindeutig
interpretieren zu konnen.
Fehlt eine formale Spezi kation, die eine solche Interpretationsvorschrift liefert, so
konnen auch bei einem abgeschlossenen und relativ \einfach" zu beschreibenden Gegenstandsbereich wie der Morphosyntax des Nomens (\einfach" soll heien: die linguistischen
Fakten sind bekannt) Probleme bei der Interpretation von Beschreibungsmitteln auftreten.
In Eagles wurde dieses Problem erkannt; die in Tabelle 2.2 dargestellten Inventare
von Etiketten werden nur als der erste Schritt in einem stufenweisen Proze der Erstellung von Vorschlagen fur Standard-Lexika und -Tagsets angesehen. Der nachste Schritt
besteht darin, auf den Inventaren linguistische Spezi kationen zu konstruieren, die formal
reprasentiert und automatisch uberpruft werden konnen. Solche Spezi kationen wurden
in Eagles von [Teufel 1995a] fur die Morphosyntax des Deutschen und analog von [Rekowski 1995] fur Franzosisch und von [Monachini 1995] fur Italienisch erarbeitet32. Fur
deutsche Substantive ergibt sich z.B. eine Spezialisierungshierarchie, wie in Abbildung 2.8:
die Darstellung in Abbildung 2.8 kodiert die deutsche Instanz der multilingualen Tabelle
2.2; fur jede Teilklasse wird angegeben, welche Attribute de niert sind; ist ein Attribut fur
eine Teilklasse nicht relevant, so ist es von der De nition dieser Teilklasse ausgeschlossen
(vgl. das Attribut declin bei Eigennamen: es fehlt in der De nition der Klasse33 ).


32 Die Eagles-Dokumente werden im Fruhjahr 1996 vero entlicht.


33 Die Darstellung wurde unverandert ubernommen von [Teufel 1995b]; der Wert \no" fur das Attribut
declin steht fur \normal". Die Tabelle und der Hierarchiegraph enthalten uberlappende Infomation
fur die Attribute pos, type, declin.

pos = n

pos=n & type=com

pos = n & type=com


& declin = no

Feature
pos
type
declin
numb
case
gend
in

pos=n & type=prop

pos=n & type=com


& declin = adject

NOUNS
Values
noun

com
normal
adject
sg, pl
sg, pl
nom, gen, dat, acc
nom, gen, dat, acc
m,f,n,*
m,f,n,*
|
weak, strg, mix

prop
|

sg, pl,*
nom, gen, dat, acc,*
m,f,n.*
|

Abbildung 2.8: Hierarchische Spezi kation fur deutsche Nomina in Eagles


An dieser Stelle sollen nicht die Eigenschaften von constraint-basierten Formalismen vorweggenommen werden, auf deren Grundlage die Formulierung von lexikalischen Spezi kationen moglich wird34 . Dennoch sollen einige zentrale Konzepte hier kurz angerissen
werden, damit der Unterschied zu den oben diskutierten Worterbuchern bzw. Tagsets
deutlich wird.
 Constraint-Basiertheit: die angestrebte lexikalische Spezi kation soll einerseits aus
einem Vokabular (Inventar der Beschreibungsmittel, Attribute und Werte), andererseits aus einer formalen Grammatik bestehen, die die Kombination der Beschreibungsmittel festlegt.
 Typisierung: die lexikalischen Spezi kationen sollen so strukturiert und reprasentiert werden, da die semantische Korrektheit von Objektbeschreibungen (d.h. die
logische Konsistenz entlang der De nition) automatisch uberpruft werden kann.
Auerdem entsteht durch die Typisierung die Moglichkeit der Hierarchiebildung,
welche zur Kodierung von Klassi kationen benutzt werden kann.
 De nition anwendbarer Attribute und Werte (Appropriateness Constraints): f
ur jedes verwendete Attribut sollen Wertebereiche de niert werden. Fur jede Klasse von
beschriebenen Objekten sollen die de nitionsrelevanten Attribute angegeben werden. Auerdem erhalt durch die De nition von Wertebereichen die Negation, bzw.
das Fehlen von Attributen eine klare Interpretation.
34 Diese Eigenschaften sind in Abschnitt 3.1 detailliert beschrieben.

Die hier genannten Eigenschaften erhalten insbesondere dann ihre Bedeutung, wenn es
um die De nition von Spezi kationen fur mehrdeutige Falle geht, in denen u.U. der Lexikograph selbst nicht unmittelbar zu eindeutigen Klassi zierungen kommt.

2.2 Strukturierung zweisprachiger Worterbucher


Im folgenden Abschnitt werden einige der Grundprinzipien der Organisation zweisprachiger Worterbucher diskutiert. Die Strukturierung eines zweisprachigen Worterbuchs fur ein
sprachverarbeitendes System hangt naturlich eng mit der Organisation der monolingualen
Worterbucher der beteiligten Sprachen zusammen. Die kontrastive Dimension, insbesondere die Orientierung der zweisprachigen Worterbucher auf die U bersetzung, fuhrt jedoch
zu zusatzlichen Fragestellungen gegenuber einsprachigen Worterbuchern.
In der Lexikographie wurden verschiedene Konzepte fur die Gestaltung von zweisprachigen Worterbuchern entwickelt. Die lexikographischen Ansatze lassen sich, grob gesagt,
in zwei Hauptklassen einteilen, namlich in \direktionale" und \nicht-direktionale" U bersetzungsworterbucher.
Im folgenden Abschnitt werden die zwei Ansatze referiert (2.2.2.1, 2.2.2.2) und vergleichend diskutiert, sowohl aus theoretischer (Abschnitt 2.2.2.3), als auch aus praktischer
Sicht, anhand von Beispielen (2.2.2.4). Dann folgt eine Beschreibung der Relevanz der
nicht-direktionalen Worterbucher aus der Sicht der Wiederverwendung lexikalischer Information (Abschnitt 2.2.3). Aus der Analyse von Starken und Schwachen beider Ansatze
ergeben sich weitere Anforderungen an die Architektur eines multifunktionalen Worterbuchs.
Die hier vorgetragene These ist, da der nicht-direktionale Ansatz aus der Sicht der
Wiederverwendung und im Bezug auf die Kombination von monolingualen und kontrastiven Beschreibungen besonders relevant ist, und zwar sowohl aus theoretischer wie aus
praktischer Sicht. Auerdem mute es moglich sein, aus einer einzigen Datenbasis Eintrage fur beide Ansatze abzuleiten. Der Unterschied zwischen beiden liegt dann starker
in der Prasentation als in der deskriptiven Seite der lexikographischen Arbeit.

2.2.1 Vorbemerkung: Deskription vs. Prasentation in der Lexikographie


Vor der Diskussion der lexikographischen Ansatze ist es notwendig, eine Unterscheidung
in Erinnerung zu rufen, die fur die metalexikographische Diskussion uber Worterbucher
grundlegend ist. Es handelt sich um die Unterscheidung zwischen der Beschreibungsarbeit
(Datendeskription) und der Prasentation von Beschreibungsresultaten im Worterbuch.
In Abschnitt 2.1.2 wurde die Reinterpretierbarkeit lexikalischer Beschreibungen diskutiert, und es wurde darauf hingewiesen, da die Wiederverwendung von lexikalischen
Beschreibungen auf die Rekonstruktion der Beschreibungsintuition des Autors angewiesen ist. Daraus, wie der Lexikograph seine deskriptiven Ergebnisse prasentiert, wird geschlossen, welches Beschreibungsmodell seiner Arbeit zugrundeliegt (vgl. oben, Abschnitt
2.1.2.2, Seite 29).
Als \Datendeskription" bezeichnen wir den Vorgang der lexikographischen bzw. linguistischen Modellierung von sprachlichen Fakten. Sie bedient sich einer Theorie, eines
formalen oder formalisierbaren Beschreibungsansatzes oder einer Menge von Handlungsanweisungen, wie sie in Instruktionsbuchern von Worterbuchern als Handreichung fur
die Klassi kation von Beispielmaterial angegeben werden (Anforderungshorizont). Zur

Deskription gehort die De nition der Klassi zierungen, die der Lexikograph vornehmen
mochte.
Als \lexikographische Prasentation" bezeichnen wir die Art und Weise, in welcher die
Beschreibungsresultate einem bestimmten Zielpublikum dargeboten werden (vgl. oben die
Diskussion in Abshnitt 2.1.2.2).
Naturlich bestehen sehr enge Zusammenhange zwischen deskriptiver und prasentationeller Seite lexikographischer Arbeit35. Insofern die Auswahl aus moglichen Beschreibungen ihrerseits prasentationellen, von der Zielgruppe her de nierten Charakter hat, wirken
sich prasentationelle Entscheidungen zwar nicht auf die deskriptive Arbeit selbst, jedoch
auf die Weiterverwendung deskriptiver Resultate aus.
Die Relevanz der Unterscheidung zwischen deskriptiver und prasentationeller Seite
lexikographischer Arbeit fur die Wiederverwendungsdiskussion lat sich auch aus den
Vorschlagen von [Martin/Al 1988] fur multifunktionale Lexika herauslesen. Die beiden
Autoren unterscheiden zwischen einer \database", d.h. einer multifunktional gedachten
Sammlung von lexikographischen Beschreibungen, deren Form nicht von den Notwendigkeiten einzelner Anwendungen beein ut ist, d.h. bei der (noch) keine prasentationellen
Entscheidungen getro en worden sind, und andererseits \front-end-dictionaries", d.h. anwendungsspezi schen Worterbuchern, bei denen die Auswahl aus den Beschreibungsresultaten und deren Prasentation von den Notwendigkeiten einer bestimmten Zielgruppe
gepragt ist.
\User-orientation is to be de ned as a relative characteristic of dictionaries
(front-ends), not (necessarily) of the underlying databases from which they
are derived." [Martin/Al 1988]
Vergleicht man Eintrage zum selben Lemma in verschiedenen Worterbuchern, so lassen
sich Beispiele fur eine (weitgehend) gemeinsame lexikographische Datendeskription und
unterschiedliche Prasentationsformen leicht nden; in Abbildung 2.9 sind die Subkategorisierungsangaben s.v. DE abraten aus allgemeinen zweisprachigen Worterbuchern Deutsch
$ Franzosisch (Weis/Mattutat und Sachs/Villatte) dem Eintrag s.v. FR deconseiller aus
[Busse/Dubost 1983] gegenubergestellt36 ; die Prasentation der Subkategorisierungsangaben in [Busse/Dubost 1983], einem Spezialworterbuch der Verbsyntax, weicht (naturlich)
von derjenigen im allgemeinen zweisprachigen Worterbuch stark ab: Busse/Dubost ist beispielsweise als Tabelle gesetzt, enthalt Konstruktionsmuster-Formeln und fur jede Formel
einen Beispielsatz.
Eine fur ein zweisprachiges Worterbuch neue Prasentationsform fur Subkategorisierungsangaben ist im Worterbuchartikel s.v. achten aus einem in Vorbereitung be ndlichen
Deutsch $ Franzosischen Worterbuch zu nden: dort wird die Verbkonstruktion durch
35 Fur metalexikographische Diskussionen uber Worterbucher ist es generell sinnvoll, zwischen deskriptiven und prasentationellen Fragestellungen strikt zu unterscheiden und zu versuchen, bei der Diskussion oder Kritik bestehender Worterbucher und bei der Erarbeitung von Vorschlagen fur neue
Worterbucher die beiden Aspekte nicht zu vermischen. Fur die vorliegende Arbeit wird dieser Versuch
unternommen. Die Diskussion konzentriert sich dabei auf die deskriptive Seite der lexikographischen
Arbeit.
36 Hier und im Rest der Arbeit werden Objektsprachzitate mit Kurzeln fur die jeweilige Sprache versehen. \DE" steht fur Deutsch, \FR" fur Franzosisch, \EN" fur Englisch, \IT" fur Italienisch, \ES" fur
Spanisch und \NL" fur Niederlandisch. Diese Kennzeichnung fehlt, wenn die jeweilige Sprachzuordnung aus dem Kontext hervorgeht.





abraten: j-m etw.

 deconseiller qch. a q.; dissuader q. de qch.


(Weis/Mattutat)
abraten v/t. u. v/i. irr., sep., -ge-, h j-m (von) etw.  deconseiller
qc. a qn.; dissuader qn. de qc. (Sachs/Villatte)
deconseiller (3)
jm abraten von
N - V -(
a Nqn) - N
Je vous deconseille ce medicament.
Busse/Dubost
<

>

achten [...] vt 1. (schatzen)  jd achtet jdn qn estime qn;  jd achtet


jdn als etw qn considere qn comme qc;  geachtet estime(e)
2. (respektieren)  jd achtet etw Gesetze, Brauche, Gesinnung qn respecte qc [Worterbuch Deutsch/Franzosisch, in Vorbereitung]

Abbildung 2.9: Prasentation von syntaktischen Informationen in verschiedenen Worterbuchern


Formeln mit inde niten Pronomina (\jmd", \jmdn", usw.) angegeben37 . Ein ahnliches
Verfahren ist bisher nur in den einsprachigen englischen Cobuild-Worterbuchern benutzt
worden.

2.2.2 Direktionale vs. Nicht-direktionale zweisprachige Worterbucher


2.2.2.1 Parameter der kontrastiven lexikalischen Beschreibung
Eine Reihe von grundlegenden Fakten der kontrastiven linguistischen Beschreibung wirken
als Randbedingungen fur die Erstellung zweisprachiger (U bersetzungs-) Worterbucher. Zu
diesen Grundgegebenheiten38 gehoren die folgenden Zusammenhange:
 bersetzung: die U ber Der Unterschied zwischen Quellsprache und Zielsprache der U
setzungstatigkeit ist immer gerichtet, d.h. sie geht von Beschreibungen in einer
Quellsprache aus und fuhrt zu Beschreibungen in einer Zielsprache hin. Damit ist
die kontrastive lexikalische Beschreibung fur die U bersetzung zunachst immer nur
sprachpaarweise und nur sprachrichtungs-abhangig moglich39.
 Der Unterschied zwischen Muttersprache und Fremdsprache des Worterbuchbenutzers: Worterbucher fur die interaktive Benutzung (gedruckt oder elektronisch: alle
37 Das Worterbuch soll 1996 beim Klett-Verlag, Stuttgart, erscheinen. Der Autor mochte der Redaktion
\PONS" fur die Verfugbarmachung von Beispieleintragen danken.
38 Vgl. dazu [Hausmann 1977], [Kromann/Riiber/Rosbach 1989], etc.
39 Es gibt zwar, insbesondere im Bereich der Terminologie, drei- und mehrsprachige Worterbucher, jedoch gehen diese Worterbucher davon aus, da ein Spezialfall der A quivalenz vorliegt, namlich die
durch eine sprachexterne terminologische Normsetzung festgelegte De nition von auersprachlichen
Konzepten, fur die in den einzelnen Sprachen vollstandig aquivalente Benennungen bereitgestellt werden; insofern diese Bennenungen auf dieselben Bedeutungen (Denotate) verweisen, liegt zwischen den
Benennungen der einzelnen Sprachen trivialerweise richtungs-unabhangig vollstandige A quivalenz vor.
In der Gemeinsprache ist diese Situation ein Ausnahmefall; er tritt zuweilen bei Internationalismen
auf.

Worterbucher, die nicht ausschlielich fur Computerprogramme entwickelt werden)


mussen die Sprachkompetenz des Worterbuchbenutzers berucksichtigen. Im Fall des
zweisprachigen Worterbuchs wird dabei davon ausgegangen, da eine der beiden im
Worterbuch behandelten Sprachen dem Benutzer bekannter ist als die andere. Entsprechend kann die Quellsprache oder die Zielsprache des U bersetzungsworterbuchs
die Muttersprache (d.h. die dem Benutzer bekanntere Sprache) oder, im anderen
Fall, die Fremdsprache (d.h. die dem Benutzer weniger bekannte Sprache) sein.
Der Unterschied zwischen sprachproduktiven und sprachrezeptiven Aktivitaten des
Benutzers. Der Worterbuchbenutzer kann sein Worterbuch entweder fur die Produktion eines Texts verwenden, ohne aber als Hilfsmittel fur das Textverstandnis.
[Hausmann 1977] hat aufgrund dieser beiden grundlegenden Typen von Benutzungssituationen bzw. Worterbuch-Funktionen zwischen dem \Hinubersetzungs-Worterbuch" (fur Textproduktion) und dem \Herubersetzungs-Worterbuch" (fur Textverstehen) unterschieden. Die Unterscheidung geht in gewisser Weise auf Scerbas
Unterscheidung zwischen \aktiven" (=^ Hinubersetzungs-) und \passiven" (=^ Herubersetzungs-)Worterbuchern zuruck. In Arbeiten von [Kromann/Riiber/Rosbach
1984], [Kromann 1989] und [Kromann/Riiber/Rosbach 1989] wurde auf der Grundlage der Arbeiten von Scerba und Hausmann eine detailliertere Typologie von U bersetzungsworterbuchern erarbeitet40.

Vereinfacht kann man aufgrund der genannten drei Unterscheidungen fur zwei Sprachen
A und B die folgenden vier verschiedene Typen von Worterbuchern unterscheiden:
 Ein Worterbuch A ! B f
ur Sprecher von A: ein \Hinubersetzungs-Worterbuch" fur
Sprecher von A;
 Ein Worterbuch A ! B f
ur Sprecher von B: ein \Herubersetzungs-Worterbuch" fur
Sprecher von B;
 Ein Worterbuch B ! A f
ur Sprecher von A (\Herubersetzungs-Worterbuch");
 Ein Worterbuch B ! A f
ur Sprecher von B (\Hinubersetzungs-Worterbuch").
Die vier Worterbucher sind alle sprachpaarspezi sch, gerichtet und adressatenspezi sch.
Nach der metalexikographischen Theoriebildung sollten alle vier Typen unterschiedlich
sein, wobei Hinubersetzungs- und Herubersetzungs-Worterbucher jeweils spezielle Eigenschaften haben.
Man konnte sich vorstellen, da dieselben Fakten uber die A quivalentbeziehungen zwischen Lexemen der Sprachen A und B in den vier Worterbuchern beschrieben werden. Eine Extremposition in der Diskussion uber die Organisation zweisprachiger Worterbucher
konnte darin bestehen, zu behaupten, da die vier Worterbucher unterschiedliche deskriptive Ansatze notig machen; eine andere Extremposition wurde behaupten, da die vier
Worterbucher sich nur in der Prasentation, nicht in den Beschreibungen, voneinander
unterscheiden sollen.
40 Weitere Beitrage zu dieser Diskussion wurden von [Mugdan 1990] und [Mikkelsen 1991] vero entlicht.
Vgl. auch die dort zitierten Quellen.

2.2.2.2 Direktionale Worterbucher

Der Kernpunkt der Theorie der direktionalen Worterbucher, wie sie beispielsweise von
[Kromann 1989] formuliert worden ist, ist folgender: in jeder U bersetzungssituation wirken die Eigenschaften der Zielsprache als Bedingungen (Restriktionen, Constraints) fur
die A quivalentformulierung und A quivalentwahl. Im Hinubersetzungs-Worterbuch sind
zielsprachliche Constraints auf der Ebene der lexikalisch-semantischen und der syntaktischen Beschreibung besonders relevant, soda der Lexikograph aufgrund des Fehlens von
Zielsprachintuition beim Worterbuchbenutzer zu besonderer Prazision und zu besonderer
Detailliertheit bei der Angabe von zielsprachlichen Beschreibungen gezwungen ist. Kromann verlangt, da das (direktionale) U bersetzungsworterbuch die Quellsprache \durch
die Brille" der Zielsprache beschreibt41 .
Damit ist gemeint, da nicht so sehr die eventuell in monolingualen quellsprachlichen Worterbuchern vorkommenden Bedeutungsdi erenzierungen fur die Bedeutungsdifferenzierung des U bersetzungsworterbuchs eine Rolle spielen, sondern vielmehr diejenigen
Unterscheidungen, welche in der Zielsprache gemacht werden mussen. Diese Unterscheidungen sind dem Worterbuchbenutzer nicht von vorneherein bekannt; sie mussen ihm
detailliert nahegebracht werden, um sicherzustellen, da das Worterbuch optimale Unterstutzung bei der fremdsprachlichen Textproduktion leisten kann42 .
Die Spezi ka des direktionalen Worterbuchs werden dort am deutlichsten, wo einerseits A quivalentrelationen beschrieben werden, bei denen zwischen Quell- und Zielsprache
weitgehende Isomorphie vorliegt, sowie andererseits Falle mit gravierenden Unterschieden
zwischen Quell- und Zielsprache. Isomorphie-Situationen treten beispielsweise dort auf,
wo dieselben Bedeutungsunterscheidungen in Quell- und Zielsprache gemacht werden,
bzw. wo quellsprachliche und zielsprachliche lexikalische Einheiten analoge linguistische
Eigenschaften aufweisen.
Das direktionale Worterbuch wurde im Falle von Isomorphie davon ausgehen, da der
Benutzer Unterscheidungen, die ihm aus der Quellsprache bekannt sind, solange auf die
zielsprachliche Situation ubertragen darf, wie ihm keine speziellere zielsprachspezi sche
Information geliefert wird. Umgekehrt fordert es, da samtliche Falle, in denen sich Quellund Zielsprache unterscheiden, in der Weise prasentiert werden, da die zielsprachlichen
41 Vgl. [Kromann 1989]:56: \Bei der lexikalischen und grammatischen Beschreibung zweier Sprachen
sieht der Lexikograph das jeweilige System durch die Brille des anderen Systems." [ ] \Wenn das
Fremdwort intensiv etwa vier Bedeutungen hat (Arbeiten/Schmerz/Gesprach/Landwirtschaft) und
das entsprechende russische Wort den gleichen Bedeutungsumfang, dann kann der Lexikograph kurzen
und braucht nicht diese Bedeutungsgliederung aus dem einsprachigen Bedeutungsworterbuch zu wiederholen" (a.a.O.).
Und: \Der Benutzer schlagt im zweisprachigen Worterbuch nach, um Schwierigkeiten in der Fremdsprache zu beheben, und nicht, um Schwiereigkeiten in der Zielsprache zu beheben." ([Kromann
1989]:59).
42 Eine analoge Problematik besteht naturlich auch beim Herubersetzungs-Worterbuch, weil auch dort
die U bersetzung in die Zielsprache Constraints fur die A quivalentwahl darstellt. Das Problem wird
jedoch im Hinubersetzungs-Worterbuch insofern deutlicher, als nicht mit der Sprachkompetenz des
Benutzers gerechnet werden kann. In Sprachverarbeitungsanwendungen, d.h. in Systemen, in denen
keinerlei Sprachwissen vorhanden ist, welches nicht im Worterbuch oder in der Grammatik kodiert
ware, mussen naturlich Quell- und Zielsprache gleichermaen detailliert beschrieben werden (vgl.[Heid
1988]:203f.). Die Abhangigkeit von Zielsprach-Constraints bleibt jedoch bestehen: das System mu
eine wohlgeformte zielsprachliche Realisierung erzeugen konnen; eine detaillierte Beschreibung der
Quellsprache ist in einem solchen System zwar unabdingbar, jedoch nur wirklich einsetzbar, wenn es
fur sie eine adaquate zielsprachliche Realisierung gibt.
:::

Alternativen (beispielsweise zwischen quasisynonymen A quivalentvorschlagen) dem Benutzer di erenziert deutlich gemacht werden.

2.2.2.3 Nicht-Direktionale Worterbucher

Die Theorie der \nicht-direktionalen" Worterbucher43 geht ebenfalls von der Unterscheidung in vier Typen von zweisprachigen Worterbuchern aus. Hinzu tritt allerdings die
U berlegung, da das Hinubersetzungs-Worterbuch primar dem Benutzer dazu dienen soll,
Inhalte die er ublicherweise in seiner Muttersprache formuliert, in einer anderen Sprache
moglichst getreu wiederzugeben. Hieraus leitet sich der Anspruch ab, zunachst fur die
Quellsprache eine moglichst detaillierte inhaltliche Beschreibung zu geben, an welcher
kontrastive Statements festgemacht werden konnen.
Die Vertreter der Vorschlage fur die nicht-direktionale Worterbuchorganisation anerkennen durchaus die Notwendigkeit einer kontrastierenden zielsprachlichen Beschreibung, schlagen jedoch daruberhinaus vor, eine detaillierte Beschreibung der Quellsprache als Ausgangspunkt der Beschreibung zu verwenden: Das Worterbuch soll in seinen
Eintragen diejenigen Fakten, Objekte, Situationen usw. explizit benennen, uber welche
die Mitglieder der Sprachgemeinschaft, deren Sprache als Quellsprache fungiert, sprechen mochten. Deswegen wird ein monolinguales De nitionsworterbuch, welches explizite
und teilweise formalisierte Bedeutungsbeschreibungen enthalt, als \starting point for the
macrostructure"44 des zweisprachigen Worterbuchs genommen.
Die Idee des nicht-direktionalen Worterbuchs wurde bei dem niederlandischen Verlag
Van Dale entwickelt und erstmalig realisiert. Ausgehend von Bedeutungserlauterungen
eines einsprachigen niederlandischen Worterbuchs ([Van Sterkenburg/Pijnenburg 1984])
wurden Hinubersetzungsworterbucher Niederlandisch!Englisch, Niederlandisch!Deutsch,
Niederlandisch!Franzosisch konzipiert. Das monolinguale De nitionsworterbuch wurde
bei der Entwicklung der zweisprachigen Worterbucher als Inventar von \Lesarten" verwendet, die jeweils aus einem Lemma und einer Bedeutungserlauterung bestehen45 . Die Paare
aus \ Lemma, Bedeutungserlauterung ", dienen als Ausgangspunkt fur A quivalenzaussagen im zweisprachigen Worterbuch; sind sind sozusagen das Inventar der Fakten,
Objekte, Situationen, etc., uber die der niederlandische Benutzer der Worterbucher sprechen mochte: in seiner Muttersprache Niederlandisch, oder in einer der Fremdsprachen,
in die die Van Dale-Worterbucher ubersetzen.
Fur jedes der Hinubersetzungsworterbucher mit Niederlandisch als Quellsprache wird
(im Groen und Ganzen) dasselbe Inventar von \Lesarten" als Ausgangspunkt angesetzt.
Die A quivalenzaussagen selbst konnen dann, wiederum in starker Vereinfachung, als Paare
aus je einer solchen \Lesart" und einer Menge von moglichen zielsprachlichen A quivalentbeschreibungen aufgefat werden.
<

>

43 Die Bezeichnung als \direktional" und \nicht-direktional" wurde vom Autor in [Heid 1990], [Heid
1991a] eingefuhrt und diskutiert. In [Heid 1991a] heien die \nicht-direktionalen" Worterbucher noch
\konzeptorientierte" Worterbucher.
44 Vgl. [Van Sterkenburg/Martin/Al 1982]: 228.
45 Bedeutungserlauterungen konnen Synonyme, De nitionen, Verweise usw. sein. Die Form der Bedeutungserlauterungen ist nicht vollstandig standardisiert. Details werden unten in Abschnitt 2.2.3
gegeben.

2.2.2.4 Vergleich der Ansatze

Im folgenden werden einige Aspekte der beiden in den Abschnitten 2.2.2.2 und 2.2.2.3
skizzierten Ansatze zur Gestaltung von zweisprachigen Worterbuchern verglichen. Der
Vergleich zielt darauf ab, herauszuarbeiten, welche Aspekte der beiden Herangehensweisen
der zweisprachigen Lexikographie fur die Formulierung von kontrastiven Worterbuchern
fur maschinelle Anwendungen besonders relevant sind. Hierbei stehen die angestrebte
Multifunktionalitat und Formalisierbarkeit der Worterbucher im Vordergrund.
Ein wichtiger Unterschied zwischen den beiden Ansatzen konnte, schlagwortartig, wie
folgt beschreiben werden: die nicht-direktionalen Worterbucher zielen auf Modularitat ab,
die direktionalen Worterbucher auf Ezienz.
Beim nicht-direktionalen Ansatz werden samtliche Typen von A quivalenzrelationen,
unabhangig davon, ob zwischen Quell- und Zielsprache Isomorphie herrscht oder nicht,
nach einem einheitlichen Verfahren beschrieben46 . Auerdem konnen die quellsprachlichen Beschreibungen \herausgelost" und als eigene Komponenten behandelt werden. Die
Methode, ausgehend von einer bereits vorhandenen quellsprachlichen Beschreibung A quivalentrelationen fur die U bersetzung aus der Quellsprache in andere Sprachen zu formulieren, und beide Teilbeschreibungen separat, jedoch kompatibel zu halten, unterstutzt
die Modularitat. In Arbeiten von [Al 1988], [Martin 1989], [Heid 1990], [Martin/van der
Vliet 1992], wurden Experimente unternommen, die Modularitat der U bersetzungsworterbucher von Van Dale noch weiter auszunutzen, um aus zwei Hinubersetzungsworterbuchern mit Niederlandisch als Quellsprache (z.B. NL ! FR, NL ! DE) eine Datenbasis
fur U bersetzungsworterbucher zu erzeugen, welche zwischen den Zielsprachen der beiden eingesetzten Worterbucher vermitteln (FR $ DE). Hierauf wird in Abschnitt 2.2.3.5
detailliert eingegangen.
Demgegenuber ist der direktionale Ansatz auf Ezienz der Prasentation angelegt. Die
\Mitwirkung" des Benutzers, d.h. der Einbezug seiner Quellsprachkompetenz wird maximal ausgenutzt: Isomorphie-Situationen zwischen Quell- und Zielsprache werden bei der
Prasentation von A quivalenzbeschreibungen speziell behandelt: in den Fallen, wo Quellund Zielsprache sich analog verhalten, wird dem Benutzer dieser Sachverhalt signalisiert,
und es wird auf eine detaillierte Beschreibung zielsprachlicher Einheiten verzichtet. Umgekehrt wird explizit auf Unterschiede zwischen quell- und zielsprachlicher Realisierung
hingewiesen, und es werden all diejenigen Unterscheidungen der Zielsprache hervorgehoben, die fur den Benutzer unklar sein konnten. Insofern diese Unterschiede sich aus den
(in der Regel dem Benutzer nicht (vollstandig) bekannten) Eigenschaften der zielsprachlichen Lexeme oder der \Realien" bzw. Konzepte der hinter der Zielsprache stehenden
Kultur erklaren lassen, mu die zielsprachseitige Beschreibung in diesen Fallen besonders
detailliert, explizit und ggf. kontrastierend sein.
Interessant ist in diesem Zusammenhang, da das direktionale Worterbuch auch die
explizite Unterscheidung von Lesarten dort vermeidet, wo in Quell- und Zielsprache dieselben Lesartenunterscheidungen vorliegen, jedoch in beiden Sprachen die jeweiligen Lesarten
in einem Lexem zusammenfallen. Analoge Vorgehensweisen wurden im Rahmen der maschinellen U bersetzung diskutiert, mit den Ziel der \Erhaltung von Ambiguitaten": wenn
Quell- und Zielsprache dieselben Mehrdeutigkeiten aufweisen, so ist es nicht notwendig,
da bei der U bersetzung eine vollstandige Disambiguierung erfolgt; die Lesarten, die im
46 [Baunebjerg Hansen 1990] stellt fest, da die Mikrostruktur von Van Dale-Worterbuchern im Vergleich
mit anderen Worterbuchern besonders stark standardisiert ist.

quellsprachlichen Material unterschieden worden waren, wurden bei der U bersetzung in


die Zielsprache wieder zusammenfallen.
In Abbildung 2.10 sind schematisch (von oben nach unten) drei A quivalenzsituationen
angegeben; im ersten Fall hat ein quellsprachliches Lexem (im Bild: linke Seite, \QS")
zwei unterschiedliche Bedeutungen (im Bild: Ovale in der Mitte der Zuordnungs-Graphen,
\Sem"), von denen jede zu einer eigenen zielsprachlichen U bersetzung fuhrt. Sowohl das
direktionale Worterbuch als auch das nicht-direktionale wurden eine detaillierte Beschreibung dieser Situation fur notig halten.
QS

Sem

ZS

Abbildung 2.10: A quivalenz-Situationen


Im zweiten Teilbild fallen die Bedeutungen von zwei verschiedenen quellsprachlichen Lexemen zusammen (Quasisynonyme). Im direktionalen Worterbuch wurde man zwei (einfache, nicht notwendig sehr elaborierte) Eintrage nden. Im nicht-direktionalen Worterbuch
nden sich ebenfalls zwei separate Worterbucheintrage. Die Bedeutungserlauterungen der
beiden quellsprachlichen Lesarten sind jedoch (idealerweise) analog; anderenfalls sollten
sie so gestaltet sein, da eventuelle Nuancen, in denen sich die beiden Lesarten doch noch
unterscheiden, sichtbar gemacht werden.
Der im dritten (unteren) Teilbild dargestellte Fall illustriert die Vorgehensweise bei
der \Erhaltung von Ambiguitaten": ein quellsprachliches Lexem hat zwei Lesarten. Beide
\fallen in der Zielsprache zusammen", soda es nur ein zielsprachliches Lexem als A quivalentkandidat fur beide Lesarten gibt. Das direktionale Worterbuch verzichtet in einem
solchen Fall auf eine detaillierte Beschreibung der quellsprachlichen Polysemie und setzt
einen einzigen Eintrag (bzw. eine A quivalentangabe) an. Das nicht-direktionale Worterbuch macht zwei Eintrage: je einen fur jede Lesart, selbst wenn das zielsprachliche Lexem
als A quivalentvorschlag in den beiden einzelnen Eintragen (redundant) wiederholt wird.
Aus prasentationeller Sicht ist das direktionale Worterbuch erheblich spezialisierter
(und auf die Benutzungssituation { sprachrichtungsabhangige U bersetzung in die unbekannte Zielsprache { genauer zugeschnitten) als das nicht-direktionale Worterbuch: das
ideale direktionale Worterbuch bietet alle notige Information und nur gerade so viel In-

formation wie notig. Dagegen ist das nicht-direktionale Worterbuch modularer, um den
Preis gelegentlicher Redundanz.
Man konnte sich vorstellen, da aus einer fur ein nicht-direktionales Worterbuch konzipierten Datengrundlage durch die Anwendung der Prasentationsprinzipien der direktionalen Worterbucher durchaus ein Worterbuch im (speziellen) Prasentationsformat des
direktionalen Ansatzes abgeleitet werden konnte.

2.2.2.5 Vergleich der Verfahren der Worterbuchstrukturierung anhand von


Beispielen { Zwischenbilanz
In Abschnitt 2.2.2.4 wurde der Unterschied zwischen direktionalen und nicht-direktionalen
Worterbuchern im wesentlichen als ein Problem der Prasentation dargestellt. Diese Einordnung kann anhand eines einfachen Beispiels illustriert werden.
Zu diesem Zweck werden im folgenden einige Beispiele von Worterbucheintragen fur
einen Internationalismus diskutiert. Als Beispiel sollen das Lexem DE Organisation und
seine A quivalente dienen. Ein Internationalismus wird verwendet, weil wir fur die \uber
verschiedene Sprachen hinweg verwandten" Lexeme ohne Schwierigkeiten das Vorhandensein von analogen Lesartenunterscheidungen zeigen konnen. Der Fall von DE Organisation, EN organization, NL organisatie usw. ist eine Instanz des dritten Typs der in der
Abbildung 2.10 oben (Seite 49) dargestellten A quivalenzsituationen.
Die englischen, niederlandischen und franzosischen A quivalente von DE Organisation sollen nachfolgend kurz diskutiert werden. Fur das franzosische Lexem organisation
nehmen wir drei verschiedene Lesarten an, die im folgenden in einem fur diesen Zweck
zusammengestellten Eintrag angegeben sind (vgl. Abbildung 2.11)47.
Die drei fur das franzosische Lexem unterschiedenen Lesarten werden sinngema auch
bei den A quivalenten in anderen Sprachen unterschieden. Im folgenden sind Ausschnitte
aus Worterbucheintragen des niederlandischen De nitionsworterbuchs von [Van Sterkenburg/Pijnenburg 1984] und des Cobuild-Worterbuchs fur Englisch48 angegeben (vgl.
Abbildungen 2.12 und 2.13).
47 Der Eintrag ist fur den Zweck der vorliegenden Diskussion so formuliert worden; nahezu identische
De nitionen nden sich aber in den gangigen einsprachigen De nitionsworterbuchern des Franzosischen, wie beispielsweise Le Petit Robert (PR), Dictionnaire Hachette du Francais (DHF), LEXIS,
Dictionnaire du Francais vivant (DFV). In Tabelle 2.3 sind die in diesen franzosischen Worterbuchern
vorgefundenen De nitionen zusammengestellt.

Bedeutung De nition
1
Action d'organiser (qqch.); son resultat.
Action d'organiser.
Le fait d'organiser ou de s'organiser; son resultat.
2
Facon dont un ensemble est constitue
en vue de son fonctionnement.
Maniere dont un ensemble quelconque est constitue, regle.
Fait d'^etre organise de telle ou tell maniere.
3
Association qui se propose des buts determines.
Association, groupement.
Association a buts determines.

Worterbuch
[PR]
[DHF], [LEXIS]
[DFV]
[PR]
[DHF]
[LEXIS]
[PR],[LEXIS]
[DHF]
[DFV]

Tabelle 2.3: Lesarten von organisation in verschiedenen franzosischen Worterbuchern


48 Die im Eintrag in Abbildung 2.13 in eckige Klammer gesetzten Textteile wurden von uns erganzt.

organisation,

(1) l'action d'organiser qc.,


de mettre qc. dans un ordre ou une structure;
(2) l'etat d'^etre organise, structure d'une certaine facon;
l'ordre; la structure;
(3) un groupement de personnes; une association.
Abbildung 2.11: Lesarten von FR organisation
organisatie,
0.1
0.2
0.3

het organiseren.
het georganiseerd-zijn en de wijze waroop iets is georganiseerd.
georganiseerd (onsto elijk) lichaam.

Abbildung 2.12: NL organisatie in [Van Sterkenburg/Pijnenburg 1984]


Die Belege zeigen, da fur diesen Fall davon ausgegangen werden kann, da unabhangig
von der Aufgabe der U bersetzung (Cobuild und [Van Sterkenburg/Pijnenburg 1984] sind
nicht aus der U bersetzungssicht entwickelt worden) in der jeweiligen einzelsprachlichen Beschreibung des Franzosischen, Englischen und Niederlandischen jeweils dieselben Lesarten
unterschieden werden, also der Fall der \parallellaufenden" Polysemie vorliegt. An diesen
Beispielen lat sich der Unterschied in der Herangehensweise zwischen direktionalen und
nicht-direktionalen Worterbuchern besonders deutlich zeigen.
Der niederlandisch!franzosische Eintrag aus dem nicht-direktionalen Van Dale-Worterbuch ([Al et al. 1985]) ist in der Abbildung 2.14 angegeben. Dort wird die Einteilung
organization,

(1) [organization] is the act of making the arrangements for


a particular activity in order to make sure that everything happens as planned.
(2) [organization] is the structure of something, especially
the way in which its di erent parts are related and how
they work together.
(3) An organization is a group, society, club or business,
especially a large one that has particular aims.

Abbildung 2.13: EN organization in Cobuild

in drei Lesarten ubernommen, die sich im monolingualen Worterbucheintrag ndet (man


vergleiche Abbildung 2.12 mit Abbildung 2.14). Die Numerierung der niederlandischen
Lesarten wird ubernommen, und es wird jeweils ein zielsprachliches A quivalent angegeben. Das franzosische A quivalent ist trivialerweise zunachst der Internationalismus FR
organisation49. Dementsprechend wird jeweils das A quivalentpaar \NL organisatie $ FR
organisation" wiederholt.

organisatie [...]
0.1 [het organiseren] organisation
0.2 [het georganiseerd zijn, de wijze] organisation
structure, ordre
0.3 [vereniging] organisation
) groupement, organisme, association
)

Abbildung 2.14: Eintrag s.v. organisatie im nicht-direktionalen Worterbuch NL ! FR


In einem direktionalen Worterbuch wird dagegen die \Deckungsgleichheit" der Unterscheidungen in Quell- und Zielsprache zum Anla genommen, auf eine Bedeutungsdifferenzierung zu verzichten. Beispieleintrage aus einem franzosisch ! niederlandischen
Worterbuch (Marabout) und aus einem franzosisch ! deutschen Worterbuch (Klett Standardworterbuch) sind in Abbildung 2.15 zusammengestellt. Jeweils ndet sich nur eine
A quivalentangabe. Insbesondere in vom Umfang her kleineren Worterbuchern wird dieses
Verfahren sehr oft angewendet50 .



Marabout Flash, francais-neerlandais


organisation: n. organisatie f.
Klett-Standardworterbuch, francais-allemand
organisation [...] nf. Organisation

Abbildung 2.15: Eintrage s.v. FR organisation in direktionalen Worterbuchern


Die Eintrage eines nicht-direktionalen Worterbuchs (z.B. von Van Dale-Typ) sind stark
standardisiert: fur jeden Typ von A quivalenz (vgl. die Diskussion der Beispiel oben in
Abbildung 2.10, Seite 49) wird derselbe Typ von Information gegeben. Demgegenuber
kann man Eintrage des direktionalen Worterbuchs fur bestimmte A quivalenztypen als
(prasentationelle) \Kondensate" der nicht-direktionalen Eintrage au assen.
49 Im Worterbucheintrag fett gedruckt, vgl. Abbildung 2.14. Nach dem Rechtspfeil (\)") werden
franzosische Synonyme (kursiv) angegeben, die ggf. ebenfalls als A quivalente in Frage kommen.
50 Aber keineswegs nur in Worterbuchern, die Platz sparen mussen. Das Verfahren bietet sich bei \kleinen" Worterbuchern an, ist aber nicht durch den makrostrukturellen und mikrostrukturellen Umfang
bedingt.

2.2.2.6 Zwischenbilanz
Oben am Ende von Abschnitt 2.2.2.1, Seite 45, wurden Extrempositionen der Diskussion
uber Zusammenhange zwischen beiden Ansatzen der Worterbuchorganisation angedeutet.
Die Diskussion der Beispiele aus Abbildung 2.10 und die Beispieldiskussion im vorliegenden Abschnitt sprechen fur die These, da der Unterschied zwischen direktionalem und
nicht-direktionalem Worterbuch primar prasentationeller Natur ist. Das gilt insbesondere
dann, wenn { wie im Fall Van Dale { die Notwendigkeit einer detaillierten Beschreibung
der Zielsprache von Vertretern beider Ansatze anerkannt wird51 .
Fur die Erstellung wiederverwendbarer zweisprachiger Worterbucher lat sich aus dem
hier skizzierten Sachverhalt (und insgesamt aus dem Vergleich der beiden Ansatze der
zweisprachigen Lexikographie) folgendes ableiten:
 Zweisprachige Worterb
ucher mussen eine detaillierte Beschreibung der zielsprachlichen Bedingungen enthalten, die die A quivalentauswahl einschranken. Diese Bedingungen werden in der vorliegenden Arbeit \A quivalentwahl-Constraints" genannt.
Ihre Relevanz wurde von den Vertretern des direktionalen Ansatzes am klarsten
erkannt und am deutlichsten artikuliert.
 Zweisprachige Worterb
ucher mussen modular organisiert sein, wenn sie multifunktional sein sollen: quell- und zielsprachliche Beschreibungen mussen gleichrangig
sein und (aus kontrastiver Sicht) kombiniert werden. Eine einheitlich strukturierte quellsprachliche Beschreibung kann als Ausgangspunkt fur ein solches modulares Worterbuchkonzept dienen. Dieser Aspekt wurde von den Vertretern des nichtdirektionalen Ansatzes besonders hervorgehoben.
 Ein elektronisches zweisprachiges Worterbuch braucht weniger auf prasentationelle
Ezienz zu achten als gedruckte Worterbucher und kann ggf. Redundanz enthalten.
Der direktionale Ansatz ist gegenuber dem nicht-direktionalen spezi scher insofern
er in bestimmten Fallen (z.B. Isomorphie, parallele Ambiguitaten in Quell- und Zielsprache) auf Unterscheidungen verzichtet, die im nicht-direktionalen Worterbuch
vorhanden sind; dadurch ergibt sich im direktionalen Worterbuch ein Unterschied
in der Prasentation der A quivalenzbeschreibungen je nach A quivalenztyp. Das Vorliegen einheitlicher A quivalenzangaben ist aber einfacher zu handhaben und daher
fur das elektronische Worterbuch vorzuziehen.
Aus dem Format der nicht-direktionalen Worterbucher lat sich (durch Kondensierung) ein direktionales Format ableiten (mindestens im Idealfall), aber nicht
umgekehrt. Eine \dictionary database" im Sinn von [Martin/Al 1988] sollte dem
nicht-direktionalen Modell folgen.

2.2.3 Die Strukturierung der Van Dale-Worterbucher

Im folgenden wird die Architektur der Van Dale-Worterbucher etwas detaillierter diskutiert. Auf diese Worterbucher wurde bereits oben in Abschnitt 2.2.2.3 verwiesen; die zwei51 Im Fall der praktischen Realisierung der Van Dale Worterbucher gibt es allerdings Einschrankungen:
die theoretisch akzeptierte Anforderung wird in der praktischen Realisierung nur zum Teil erfullt:
dies zeigt sich allerdings erst bei Experimenten zur Wiederverwendung der Van Dale-Worterbucher
im Detail; Quell- und Zielsprache werden hinsichtlich der syntaktischen Beschreibung unterschiedlich
behandelt (vgl. Abschnitt 2.2.3.5, unten.)

sprachigen Worterbucher des Verlags Van Dale sind am deutlichsten als nicht-direktionale
Worterbucher konzipiert. Auerdem hangen die einzelnen zweisprachigen Worterbucher
eng miteinander und mit dem einsprachigen niederlandischen De nitionsworterbuch von
[Van Sterkenburg/Pijnenburg 1984] zusammen.
Nachfolgend wird zunachst die Mikrostruktur der einsprachigen und der zweisprachigen Van Dale-Worterbucher kurz diskutiert, bevor die Zusammenhange zwischen dem
einsprachigen De nitionsworterbuch und den zweisprachigen Worterbuchern besprochen
und schlielich die Vorschlage von [Al 1988] zur Worterbuchkombination diskutiert werden. Diese Vorschlage sind ein interessantes Beispiel fur lexikalische Wiederverwendung
in der praktischen Lexikographie. Gleichzeitig stellen sie eine Art Anwendungstest der
Eigenschaften der nicht-direktionalen Worterbucher dar und somit weiteren Input fur die
De nition von Anforderungen an ein multifunktionales Worterbuch.
Der folgenden Diskussion liegen das einsprachige De nitionsworterbuch von [Van Sterkenburg/Pijnenburg 1984], sowie die niederlandisch ! franzosischen und franzosisch !
niederlandischen Worterbucher von [Al et al. 1985], die entsprechenden Worterbucher fur
Deutsch ([Cox et al. 1986]) und fur Englisch ([Martin/Tops (Ed.) 1988)]) zugrunde.

2.2.3.1 Vorbemerkung: Makrostrukturelle Auswirkungen von Homonymie


und Polysemie

Der Schwerpunkt der Untersuchung der Van Dale-Worterbucher im vorliegenden Rahmen


liegt auf der Mikrostruktur. Zu deren Verstandnis ist aber eine Vorbemerkung uber die
Behandlung von homonymen bzw. polysemen Lemmata in der Van Dale-Makrostruktur
angebracht.
Die makrostrukturelle Gestaltung der Worterbucher beruht auf einer Trennung von
Homonymen. Bei kategorialen Homographen wird die Lemmazeichenangabe mit einer
Indexzi er versehen, soda Artikel, deren Lemma dieselbe Nennform haben, jedoch unterschiedliche Kategoriewerte, getrennt (und durch hochgestellte Zi ern unterschieden)
werden. Die Eintrage s.v. metriek aus [Cox et al. 1986] in Abbildung 2.16 sind typische
Beispiele fur dieses Vorgehen.
Bei Polysemie erfogt Binnengliederung der Artikel im Bereich der Bauteile52 zur syntaktischen bzw. semantischen Beschreibung. Hat ein Lemma z.B. mehrere unterschiedliche
Genus- oder Subkategorisierungswerte, so werden mehrere Untereintrage verwendet, wobei auer der Lemmazeichenangabe samtliche anderen Bauteile wiederholt werden und
die jeweils zusammengehorigen Bausteine unter einer gemeinsamen romischen Zi er zusammengefat werden konnen53 .

2.2.3.2 Bauteile der Mikrostruktur der Van Dale-Worterbucher

Die Eintrage der Van Dale-Worterbucher bestehen, sowohl beim einsprachigen wie bei
den zweisprachigen Worterbuchern, aus vier Bausteinen.
1. Lemmaangabe;
2. Syntaktische Angaben, Angaben zur Markiertheit, zu Lehnbeziehungen usw. des
Lemmas (im folgenden \Syntaktische Information" genannt);
52 Vgl. unten, Abschnitt 2.2.3.2.
53 Hier soll nicht im Detail auf diese Verfahren eingegangen werden. Vgl. aber dazu [Baunebjerg Hansen
1990]: u.a. Kapitel 3.5.

metriek1 hde  (v.)i 0.1 [leer van de versbouw] Metrik hv.20; g.mv.i ) hogm.i
Verslehre hv.i 0.2 [hlet.i maatsoort] Metrum ho.; 2e nv. s; mv. Metren en
Metrai ) hogm.i Versma ho.i 0.3 [hmuz.i] Metrik.
metriek2 hbn.i } 1. { het e stelsel das metrische System.
Abbildung 2.16: Artikel fur kategoriale Homographen: Eintrage s.v. metriek in [Cox et al.
1986]
3. Semantische Beschreibung: Bedeutungserlauterung, im einsprachigen Worterbuch
mit Paraphrasen und Verweisen auf Synonyme, im zweisprachigen Worterbuch mit
Verweisen auf A quivalente (im folgenden \Bedeutungserlauterung" genannt);
4. Beschreibung des Kombinationsverhaltens des Lemmas; Angabe von Kollokationen;
nicht-kollokatorische Verwendungsbeispiele; Angaben zur Verwendung von idiomatischen Wendungen (im folgenden \Kontext-Beispiele" genannt).
1

Lemma

syntakt. Inf.

Bed.-Erlaeut.

Kontext-Bspe.

Abbildung 2.17: Schema der Van Dale-Mikrostruktur


Anhand des Artikels s.v. stalling wird nachfolgend ein Beispiel fur diese mikrostrukturelle Einteilung gegeben. Der Artikel ist zunachst im ublichen Druckbild wiedergegeben
(vgl. Abbildung 2.18). In der Tabelle in der Abbildung 2.19 ist derselbe Artikel nach der
hier vorgenommenen Einteilung in vier Bausteine untergliedert. In Abbildung 2.17 ist die
Mikrostruktur schematisch dargestellt. Das Schema aus Abbildung 2.17 wird in den Schemata zur Beschreibung der Interaktion zwischen ein- und zweisprachigen Worterbuchern
weiterverwendet, die unten in den Abbildungen 2.20 bis 2.23 auf den Seiten 59 bis 61
gegeben werden.
Im folgenden werden die einzelnen Bauteile kurz kommentiert.
1. Lemmaangabe: Als Lemmata treten meistens einzelne Worter, gelegentlich auch
Mehrwortverbindungen (z.B. happy few, s.v.) oder Wortbildungsmorpheme (z.B.
hemi-, hecto-) auf.
2. Syntaktische Information: Die syntaktischen Angaben und Angaben zur Markiertheit sind hinsichtlich ihres Formats streng standardisiert. Insgesamt sind jedoch

stalling hde

 (v.); -eni 0.1 loods, garage enz. waarin rijwielen of auto's


worden gestald 0.2 het op stal brengen of zetten van dieren, met name paarden
0.3 het in een loods of garage onderbrengen van rijwielen, auto's enz. 0.4 geld
dat men betaalt voor het stallen ) stalgeld } 1.3 gelegenheid tot  van
rijwielen 2.1 een overdekte  bij het station 3.4 ik kom u de  betalen.

Abbildung 2.18: Der Artikel s.v. stalling aus [Van Sterkenburg/Pijnenburg 1984]
Bauteil
(1) Lemma
(2) Syntaktische Information
(3) Bedeutungserlauterung
Lesart 1
Lesart 2
Lesart 3
Lesart 4
(4) Kontext-Beispiel

Angabentext
stalling
hde  (v.); -eni
0.1 loods, garage enz. waarin rijwielen of auto's worden gestald
0.2 het op stal brengen of zetten van dieren, met name paarden
0.3 het in een loods of garage onderbrengen van rijwielen, auto's enz.
0.4 geld dat men betaalt voor het stallen
1.3 gelegenheid tot  van rijwielen
2.1 een overdekte  bij het station
3.4 ik kom u de  betalen

Abbildung 2.19: Bauteile eines Van Dale NN-Artikels (Beispiel s.v. stalling, aus [Van
Sterkenburg/Pijnenburg 1984], vgl. Abbildung 2.18)
insbesondere die syntaktischen Angaben in den Van Dale-Worterbuchern relativ
wenig di erenziert und quantitativ eher unterreprasentiert.
Das Prinzip der Nutzung des sprachlichen Vorwissens der Benutzer, wie es an sich
sonst fur direktionale Worterbucher charakteristisch ist, ndet hier auch in einem ansonsten nicht-direktional konzipierten Worterbuch Anwendung. Beispielsweise werden zielsprachliche Subkategorisierungsangaben nur dann explizit aufgefuhrt,
wenn grammatische Konstruktionsunterschiede zwischen Quell- und Zielsprache vorliegen, d.h. wenn die Zielsprache andere syntaktische Konstruktionen benutzt, als sie
beim. Liegt eine Art \Isomorphie" zwischen quellsprachlicher und zielsprachlicher
Konstruktion vor, so gibt das Worterbuch uberhaupt keine syntaktische Beschreibung von Quell- und Zielsprache an, auer der Grobklassi zierung in intransitive
vs. transitive Verben.
3. Bedeutungserlauterungen: die einsprachigen und die zweisprachigen Van Dale-Worterbucher unterscheiden sich etwas hinsichtlich der Art, in der die Bedeutungserlauterungen formuliert sind. Allerdings sind die zweisprachigen Worterbucher auf
die einsprachigen Worterbucher bezogen, soda sich die notwendigen Verbindungen
herstellen lassen54 .
54 Details werden unten, in Abschnitt 2.2.3.4 beschrieben. Die Bedeutungserlauterungen im zweisprachigen Worterbuch sind \kompakte Zusammenfassungen" der jeweils fur die entsprechenden Lesarten
im einsprachigen Worterbuch angegebenen Bedeutungserlauterungen.

Im einsprachigen Worterbuch konnen Bedeutungserlauterungen, wie in den meisten


einsprachigen De nitionsworterbuchern, durch De nitionen (genus proximum, differentia speci ca), jedoch auch durch Synonyme gegeben werden; auerdem durch
Selektionsrestriktionen oder andere Angaben zur Kombinierbarkeit von Lexemen,
durch zusatzliche Markierungen, Registerangaben oder Verweise auf fachsprachliche Verwendungsbereiche. Diese verschiedenen Beschreibungsmittel fur Bedeutungserlauterungen konnen kombiniert sein.
4. Kontextangaben: die Worterbucher enthalten Kollokationsangaben, sowie Beispiele
fur die Verwendung der Lexeme im Kontext, die nicht notwendig Kollokationsstatus haben. Die beiden Typen von Angaben sind formal nicht unterschieden. Die
Angaben in der Kontext-Beschreibung sind mit den Angaben in der Bedeutungserlauterung verbunden. Hierauf wird nachfolgend eingegangen.

2.2.3.3 Zusammenhange zwischen Mikrostruktur-Bausteinen:


Bedeutungserlauterung vs. Kontext-Beispiele

Wie oben angesprochen, werden in den Van Dale-Worterbuchern die Bausteine zur Bedeutungserlauterung und zur Angabe von Kontexten explizit miteinander verknupft.
Die Artikel sind so organisiert, da samtliche Bedeutungserlauterungen fur samtliche
Lesarten zusammengefat sind (in dem Baustein der Mikrostruktur, der der Bedeutungserlauterung dient), und da wiederum samtliche Kontextbelege fur die verschiedenen Lesarten in einem gemeinsamen Baustein zusammengestellt sind.
Die Van Dale-Lexikographen muten nun den Zusammenhang zwischen einzelnen Kontextbelegen und den zugehorigen Lesarten in der Bedeutungserlauterung fur den Worterbuchbenutzer nachvollziehbar machen. In anderen Worterbuchern wird dieser Zusammenhang durch die Reihenfolge von Bedeutungserlauterungen und Beispielen festgelegt z.b.
dadurch, da die jeweils zu einer Bedeutungserlauterung gehorenden Beispiele dem Text
der Bedeutungserlauterung direkt folgen.
In den Van Dale-Worterbuchern wird diese sequenzielle Darstellung aufgegeben, und
die Verbindung zwischen Lesarten und Kontextdokumentation wird uber ein aus zwei
Zi ern bestehendes Verweis-System (\cijfer-punt-cijfer-code") hergestellt. Die in der Liste von Bedeutungserlauterungen angegebenen Lesarten sind numeriert mit zweistelligen
Angaben vom Typ \0.1, 0.2, 0.3, ...". Die Kontextbeispiele sind wiederum mit Ziffern versehen, wobei jetzt die erste Zi er nicht mehr \0" ist, sondern jeweils nach der
Wortklasse des von den Autoren fur relevant gehaltenen Kombinationspartners variiert.
Die Idee ist, da beispielsweise fur Kollokationen die relevanten Kollokationspartner
des jeweils beschriebenen Lexems im Beispielteil durch die vorangestellte Zi er hinsichtliche ihrer Wortklasse identi ziert werden. Kombinationen mit Nomina werden durch die
Zi er \1.X" eingeleitet, Kombinationen mit Adjektiven durch \2.X", Kombinationen mit
Verben durch \3.X" usw.
Die Kombinationen, die oben im Artikel s.v. stalling in Abbildung 2.18, Seite 56 angegeben werden, sind wie folgt klassi ziert:
 Die erste Lesart ist als Kombination von Lesart \0.3" von stalling mit einem Substantiv klassi ziert: NL gelegenheid tot stalling van rijwielen;
 das zweite Beispiel ist als Adjektiv-Kombination der ersten Lesart (\0.1") beschrieben: een overdekte stalling bij het station;

das letzte Beispiel ist als Kombination eines Verbs mit der vierten Lesart von stalling
klassi ziert: ik kom u de stalling betalen.
Die Anbindung von Kontextbelegen an Lesarten durch den cijfer-punt-cijfer-code erlaubt
eine Modularisierung der Datenbeschreibung bei gleichzeitiger expliziter Vernetzung. Die
Bedeutungserlauterungen und die Kontextbeispiele sind jeweils separat reprasentiert. Jedes Kontextbeispiel ist eindeutig einer \Lesart" zugeordnet. Es kann also nicht passieren,
da Kontextbeispiele nicht hinsichtlich der Lesarten klassi ziert sind, welche sie illustrieren. Umgekehrt konnen naturlich Lesarten ohne Belege im Lexikon aufgefuhrt sein.
Die Modularisierung der Komponenten erlaubt es daruber hinaus, da der Worterbuch-Benutzer selektiv und auf zwei verschiedenen Zugri spfaden auf die Information
zugreift. Hat er die gewunschte Lesart eines Lemmas identi ziert, so braucht er im Prinzip
nur noch die Beispiele durchzusehen, welche zu dieser speziellen Lesart angegeben werden.
Umgekehrt kann eine Durchsicht der Kontext-Belege auf diejenigen Beispiele beschrankt
werden, deren Kombinationspartner fur die aktuelle Fragestellung relevant ist: wenn der
Benutzer lediglich Kombinationen von stalling mit Verben sucht, so braucht er nur die
mit \3.X" klassi zierten Belege durchzusehen. Vor allem bei langeren Artikeln ist dieses
Verfahren dann nutzlich, wenn der Benutzer eine prazise Vorstellung dessen hat, was er
im Worterbuch aufsuchen mochte55 .


2.2.3.4 Zusammenhange zwischen dem einsprachigen Worterbuch und den


zweisprachigen Worterbuchern

Oben, in Abschnitt 2.2.1 wurden [Van Sterkenburg/Martin/Al 1982] zitiert, die im Program der Van Dale-Worterbuch-Reihe festgelegt haben, da das einsprachige De nitionsworterbuch als Ausgangspunkt fur die Makrostruktur der Hinubersetzungs-Worterbucher mit Niederlandisch als Quellsprache gelten soll. Auf der Grundlage der oben in
Abschnitt 2.2.3.2 diskutierten mikrostrukturellen Architektur der Van Dale-Worterbucher
wird im folgenden gezeigt, wie die konkrete Realisierung des Zusammenhangs zwischen
einsprachigem und zweisprachigem Worterbuch bei Van Dale gelost worden ist.
Fur die Zusammenhange zwischen dem einsprachigen Worterbuch und den Hinubersetzungs-Worterbuchern sind die ersten drei Mikrostrukturbausteine von zentraler Bedeutung: Lemma, syntaktische Information und Bedeutungserlauterung56 .
Wenn [Van Sterkenburg/Martin/Al 1982] vorschlagen, die Beschreibung des Niederlandischen im Worterbuch von [Van Sterkenburg/Pijnenburg 1984] als Ausgangspunkt fur
die Makrostruktur der zweisprachigen Worterbucher zu nehmen, so ist hiermit konkret
55 Hausmann hat in [Hausmann 1989] im Detail auf die praktischen Probleme hingewiesen, die sich
bei dem von Van Dale benutzten Verfahren zur Kontextklassi kation ergeben. Beispielsweise ist das
\Bezugswort", welches die Vergabe der ersten Zi er auslost, in Beispielen nicht immer eindeutig
identi zierbar. Das Verfahren an sich bleibt aber relevant, auch als Modell fur elektronische Worterbucher. Auch hier fuhren Modularisierung und Explizierung zu mehr Flexibilitat beim Zugri :
derselbe Zusammenhang wird in den Vorschlagen zur Worterbucharchitektur unten in Abschnitt 3.2
deutlich.
56 Fur den Moment wird hier von den Kontextbeispielen abstrahiert, obwohl [Martin/van der Vliet 1992]
auch fur dieses Informationspaket die Zusammenhange zwischen dem monolingualen Worterbuch und
den U bersetzungsworterbuchern beschreibt. Diese Verbindungen lassen sich aber aus den oben in Abschnitt 2.2.3.3 beschriebenen Relationen zwischen Komponenten der Mikrostruktur-Bausteine 3 und 4
(Bedeutungserlauterungen, bzw. Kontext-Beispiele) und den nachfolgend beschriebenen allgemeinen
Prinzipien ableiten.

die Lesarteneinteilung der Eintrage des einsprachigen niederlandischen Worterbuchs in


der dort realisierten Form gemeint. Oben, in Abbildung 2.17, wurde ein Beispieleintrag
in vier Informationspakete zergliedert. Fur die Zwecke der folgenden Betrachtung konnen
wir davon ausgehen, da die Informationspakete 1 und 2 (Lemmaangabe, syntaktische
Information) zusammen eine kategorial und syntaktisch eindeutige niederlandische Lemmaangabe bilden. Diese kann mit den einzelnen in Beschreibungsbaustein 3 (Bedeutungserlauterungen) angegebenen Beschreibungen von Lesarten zu einer Beschreibungseinheit
kombiniert werden, die als quellsprachlicher Teil einer A quivalentrelation verwendet werden kann. Dieser Zusammenhang ist in der Abbildung 2.20 schematisch dargestellt.
1

Lemma

syntakt. Inf.

1&2

2
3

Bed.-Erlaeut.

Kontext-Bspe.

Abbildung 2.20: De nition der U bersetzungseinheiten in den Van Dale-Worterbuchern:


Mikrostrukturbausteine 1, 2 und 3 (vgl. Abbildung 2.17 oben)
Die Kombination aus Lemma, Syntax und jeweils einer Lesartenbeschreibung wird als
eine monosemierte quellsprachliche U bersetzungseinheit aufgefat. Das einsprachige niederlandische De nitionsworterbuch ist eine (semiasologisch) geordnete Menge solcher Quellspracheinheiten. Da die Angaben im quellsprachlichen Worterbuch semasiologisch sortiert
sind, fallen die Bausteine 1 und 2 fur verschiedene Lesarten eines Lemmas zunachst in
den einsprachigen Eintragen zusammen; man mu sich die darunterliegende \dictionary database" jedoch, mindestens konzeptuell, als aus einer Menge von Tripeln aus den
Bausteinen 1, 2 und 3 zusammengesetzt vorstellen57.
Die semasiologische Eintragsstruktur des monolingualen Van Dale-Worterbuchs ist in
Abbildung 2.21 symbolisiert: Die Bausteine 1 und 2 sind fur alle Lesarten gemeinsam
gultig, daneben stehen die (im Schema mit 3.1 bis 3.5. numerierten) Lesarten.
Die Bedeutungserlauterungen sind im einsprachigen Worterbuch zum Teil relativ umfangreich. Damit sie in einem U bersetzungszusammenhang auf einfachere Weise benutzt
und eindeutig referenziert werden konnten, wurden fur jede Bedeutungserlauterung kurze
Paraphrasen de niert, die in der Datenbasis der zweisprachigen Worterbucher anstatt der
ublichen, ggf. etwas umfangreicheren Angaben verwendet wird: Wir nennen diese Angaben \Paraphrasen". Fur die Paraphrasen gibt es nur relativ allgemeine Stilvorgaben, sie
sind nicht vollstandig standardisiert. Die Numerierung der Lesarten wird vom einsprachigen zum zweisprachigen Worterbuch ubernommen; das exakte Paraphrasierungsverfahren
kann jedoch nicht mit formalen Mitteln beschrieben werden58 . Normalerweise wird diesel57 Die dabei in Kauf genommene Redundanz (Bausteine 1 und 2 werden wiederholt) ist kein Problem:
[Martin/Al 1988] sind ja ausdrucklich der Ansicht, da in der \dictionary database" Redundanz
moglich sein sollte. Zu demselben Schlu kommt auch die Eurotra-7-Studie, in der Diskussion der
Reprasentationszone des Wiederverwendungsszenariums.
58 Die Erstellung der Paraphrasen wurde im Lexikographie-Team von Van Dale beschlossen, aber hinsichtlich der Ausgestaltung den Lexikographen uberlassen. Personliche Mitteilung von Bernard Al.

3.1
3.2
1&2

3.3
3.4
3.5

Abbildung 2.21: Die Eintragsstruktur der Van Dale-Worterbucher: semasiologische Anordnung


be Paraphrase fur die Lesartenbeschreibung in allen Worterbuchern mit Niederlandisch
als Quellsprache benutzt.
In den U bersetzungsworterbuchern wird fur jedes Tripel aus Lemmazeichen, Syntaxangabe und Bedeutungsparaphrase ein zielsprachliches A quivalent oder eine Menge
zielsprachlicher A quivalente angegeben. Folglich enthalten zunachst samtliche NL ! XWorterbucher A quivalente zu denselben Quellsprach-Tripeln. Wo mehrere A quivalente
als Alternativen angegeben sind, konnen diese zusatzlich durch zielsprachspezi sche Beschreibungen weiter unterschieden werden. Schematisch ist diese Situation in Abbildung
2.22 dargestellt: Fur je ein Tripel, z.B. mit Lesart \3.2", gibt es jeweils beispielsweise eine
franzosische bzw. eine englische U bersetzung.
3.2

FR

3.2

EN

1&2

Abbildung 2.22: Verbindung von ein- und zweisprachiger Beschreibung in den Van Dale-Worterbuchern: monolinguale semasiologische Grundstruktur (vgl. Abbildung 2.21)
und zielsprachliche A quivalent(meng)e
Das in den Van Dale-Worterbuchern verwendete Verfahren ist der Beschreibung in einem interlingua-basierten maschinellen U bersetzungssystems sehr ahnlich. Die Worterbucheintrage der Quellsprache werden in einer (mehr oder minder formalen) Bedeutungsreprasentation59 dargestellt (hier in den Bedeutungsparaphrasen, bzw. den Tripeln), und
die U bersetzung wird an den Einheiten dieser Bedeutungsreprasentation festgemacht.
59 In [Heid 1990] wurden die Tripel aus Lemmazeichen, syntaktischer Angabe und Lesartenspezi kation
etwas vorschnell als \Konzepte" bezeichnet. Naturlich handelt es sich nicht um eine Abstraktion, die
ubereinzelsprachlich intendiert ware; der Begri \Konzept" legt diese irrtumliche Interpretation nahe,
obwohl sie weder in [Heid 1990] intendiert war, noch im Design der Van Dale-Worterbucher angestrebt
wird. Vgl. oben, Funote 2.2.2.3, Seite 47.

2.2.3.5 Wiederverwendung der Van Dale-Worterbucher:


Worterbuchkombination

In [Al 1988] wurde auf der Grundlage der oben beschriebenen Architektur der nichtdirektionalen U bersetzungsworterbucher von Van Dale der Vorschlag gemacht, jeweils
zwei U bersetzungsworterbucher mit Niederlandisch als Quellsprache so zu kombinieren,
da aus den Beschreibungen A quivalenz-Statements fur die Zusammenhange zwischen den
beiden Zielsprachen der U bersetzungsworterbucher de niert werden konnen.
Da die Quellsprachseite samtlicher NL ! X-Worterbucher im Prinzip dieselbe ist,
genugt es die A quivalente bzw. A quivalentlisten von je zwei Zielsprachen uber die Tripel aus niederlandischem Lemma, syntaktischer Beschreibung und Bedeutungsparaphrase
miteinander zu verbinden. Die Tripel erhalten dann den Status einer \Zwischenreprasentation": [Al 1988] spricht von der Verwendung des Niederlandischen als \metalangue".
Beispielsweise schlagt Al vor, das niederlandisch ! franzosische und das niederlandisch
! englische Worterbuch in der Weise zu kombinieren, da sich eine englisch $ franzosische Materialsammlung mit A quivalentangaben ergibt, aus der der Lexikograph manuell
franzosisch ! englische und englisch ! franzosische kontrastive Beschreibungen ableiten
kann. Der Vorschlag (im folgenden: \(Worterbuch)kombination") ist ein konsequenter
Schritt, ausgehend von der in Abbildung 2.22 skizzierten Struktur der Datenbasis: er ist
schematisch in Abbildung 2.23 dargestellt.
3.2

3.2

FR

EN

Abbildung 2.23: Worterbuchkombination: A quivalente von FR und EN werden verbunden,


Zusammenhang mit der NL Beschreibung (vgl. Abbildung 2.22)
Experimente dieser Art wurden von Van Dale fur die Kombination des NL ! FR und des
NL ! DE Worterbuchs (fur eine DE ! FR{Datenbasis) durchgefuhrt; jeweils wurden
Ausschnitte aus einer durch die Kombination entstandenen Datensammlung bereitgestellt,
die nach den deutschen bzw. franzosischen Lemmata sortiert wurden. Im Rahmen eines
Gutachtens wurde das Ergebnis der Worterbuch-Kombination im Detail untersucht60 .
Die Resultate wurden sowohl quantitativ wie auch qualitativ untersucht; der franzosisch
! deutsche Teil der durch Worterbuch-Kombination entstandenen Materialien deckt ungefahr 0,5 % der Makrostruktur eines ublichen zweisprachigen Worterbuchs ab61 . Der
deutsch ! franzosische Ausschnitt deckt 0,9 % der Makrostruktur eines ublichen deutsch
60 Die Arbeiten wurden im Auftrag der Verlage Le Robert, Paris, und Van Dale, Utrecht, durchgefuhrt.
Die praktische Arbeit wurde zusammen mit Miriam Scheytt geleistet. Diskussionen uber die Arbeiten
mit Bernard Al, Alain Duval und Willy Martin haben viele Details der hier diskutierten Fragestellungen geklart; allen Beteiligten wird hierfur gedankt. Eine Zusammenstellung der im Rahmen des
Gutachtens erzielten Ergebnisse wurde in [Heid 1990] gegeben.
61 Die Ergebnisse wurden verglichen mit den Lemmalisten der Worterbucher von [Sachs/Villatte],
[Weiss/Mattutat], mit [Robert/Collins], [Robert/Collins-Junior], sowie mit dem franzosisch ! niederlandisch, niederlandisch ! franzosischen Worterbuch von [Al et al. 1985].

franzosischen Worterbuchs ab62. Die Ergebnisse zeigen, da rund 80 % der Makrostruktur der zum Vergleich herangezogenen franzosisch ! deutschen Worterbucher in
den Kombinationsresultaten enthalten sind. Fur den deutsch ! franzosischen Teil wurde
sogar ein hoherer Prozentsatz ermittelt. Die Kombination ist, aus dieser Sicht, ezient
und als Verfahren zur Materialbescha ung fur die Erstellung eines U bersetzungsworterbuchs durch lexikalische Wiederverwendung sicherlich geeignet.
Parallel zur quantitativen Untersuchung wurde uberpruft, ob die in den Kombinationsresultaten enthaltene Information korrekt und hinreichend detailliert ist63. Bei der
Worterbuchkombination bleiben die Lesarteneinteilungen bestehen, die in den zugrundeliegenden Worterbuchern vorkommen. Zur Verdeutlichung ist in Abbildung 2.24 der
Zusammenhang zwischen den Lesarten von NL stalling (vgl. oben den Eintrag s.v., in
Abbildung 2.18, Seite 56) und NL garage mit FR garage und den deutschen Substantiven
Autowerkstatt, Garage, Fahrradaufbewahrung, Unterstellen angegeben.
Die franzosisch ! deutsche U bersetzung (die umgekehrte Richtung ist weniger interessant, weil nur FR garage zur Verfugung steht) kann anhand der von den NL !
X-Worterbuchern ererbten Lesartenbeschreibung gesteuert werden64 .
Die Resultate des Worterbuchkombinationsverfahrens sind dort problematisch, wo
\Mismatches" zwischen den in den Kombinationsresultaten auftreten65 . In der Regel gibt
ein zweisprachiges Worterbuch eine zielsprachliche Paraphrase an, wenn ein quellsprachliches Lexem nicht bedeutungserhaltend durch ein einzelnes Lexem der Zielsprache wiedergegeben werden kann. Bei der Kombination der Worterbucher entstehen Probleme,
wenn fur ein niederlandisches Lexem in einer der beiden Zielsprachen ein \Einwort-A quivalent" existiert, nicht aber in der anderen. Beispiele hierfur sind NL spelbreker $ DE
Spielverderber $ FR personne qui g^ache le plaisir des autres; oder: NL houdbaar $
DE haltbar, lagerfahig $ FR qui se conserve, qui se garde (eetwaren). In diesen Fallen
kann das Kombinationsresultat nur im deutsch ! franzosischen Worterbuch verwendet
werden, jedoch nicht oder nur mit Problemen im franzosisch ! deutschen Worterbuch.
Ein weiteres Problem entsteht dadurch, da die Van Dale-U bersetzungsworterbucher
zielsprachliche syntaktische Eigenschaften nur dann angeben, wenn sie sich, im Sinne
einer groben Klassi kation in transitive, intransitive, re exive Verben etc. von den entsprechenden Eigenschaften des quellsprachlichen Lexems signi kant unterscheiden. Eine
Art \Default-Annahme" fur die syntaktische Beschreibung wird in den NL ! X-Worterbuchern vorausgesetzt (vgl. die Diskussion dieses Sachverhalts, oben, in Abschnitt

62 Hier wurde mit [Sachs/Villatte], [Weiss/Mattutat], Bertaux/Lepointe und mit [Cox et al. 1986]
verglichen.
63 In der Kombination wurden zunachst nur die Mikrostrukturbausteine 1, 2 und 3 verwendet. In [Martin/van der Vliet 1992] wurden Vorschlage auch fur die Kombination der Beispielsatze und Kollokationen gemacht. Da samtliche Kollokationen des NL ! X-Worterbuchs in der Regel in die U bersetzungsworterbucher ubernommen werden (konnen), und da jeder Kontext mit der zugehorigen Lesart
und dem Kategorietyp des Kollokationspartners versehen ist, durften bei der Kombination keine Zuordnungsprobleme entstehen. Die Frage ist nur, ob die so gewonnenen Belege fur die Beschreibung
von U bersetzungen, in denen das Niederlandische keine Rolle spielt, relevant sind.
64 Ein Beispiel: FR garage wird in der Lesart het onderbrengen mit DE unterstellen, in der Lesart
bedrijf mit DE Autowerkstatt u
bersetzt (im Schema in Abbildung 2.24 durch Verfolgen der Verbindungslinien ablesbar).
65 Der Terminus \Mismatch" wird im Detail unten in Abschnitt 6.1.3.2 diskutiert. Vereinfacht gesagt,
werden als \Mismatches" Situationen bezeichnet, wo die Zielsprache keine einfache lexikalische oder
grammatische Moglichkeit hat, die Bedeutung eines quellsprachlichen Lexems auszudrucken, sondern
z.B. auf eine Paraphrase rekurrieren mu.

111111111
000000000
garage
000000000
111111111
000000000
111111111

autostalling

111111111
000000000
000000000
111111111
000000000
111111111
garage
000000000
111111111
000000000
111111111
111111111
000000000
bedrijf

loods, garage
Garage

111111111
000000000
stalling
000000000
111111111
111111111
000000000

Quellsprache

111111111
000000000
NL
000000000
111111111
111111111
000000000

Autowerkstatt
...

Fahrradaufbewahrung
het
onderbrengen

Unterstellen, ...

Lesarten

Zielsprachen

Lesart

111111111
000000000
000000000
111111111
000000000
111111111
FR
000000000
111111111
000000000
111111111
111111111
000000000

DE

Abbildung 2.24: U bertragung von Lesarten-Unterscheidungen bei der Kombination von


Van Dale-Worterbuchern
2.2.3.2). Wenn nun zwei Worterbucher mit Niederlandisch als Quellsprache kombiniert
werden, und wenn dabei die niederlandische Beschreibung unterdruckt wird, so konnen
die Kombinationresultate bei der Reinterpretation Schwierigkeiten machen, weil u.U. in
den deutschen bzw. franzosischen Worterbuchartikeln keine syntaktischen Angaben anzutre en sind, obwohl zwischen den Sprachen zum Beispiel Konstruktionsunterschiede
bestehen.
Der Gund fur das Fehlen von Angaben in den Konversionsresultaten ist folgender: da
die niederlandische Beschreibung bei der Worterbuch-Kombination wegfallt, entfallt auch
der Bezugspunkt, auf welchen sich die \Default-Annahmen" in der syntaktischen Beschreibung der Zielsprachlexeme beziehen konnten. Durch eine noch starkere Modularisierung
der zielsprachlichen Beschreibungen und dadurch, da den zielsprachlichen A quivalenten
jeweils eine eigene syntaktische (und diasystematische) Beschreibung zugewiesen wurde,
konnte das Problem beseitigt werden66 .
Hier zeigt sich sehr deutlich der Wert einer moglichst modularen lexikalischen Beschreibung: Das Verfahren der Worterbuchkombination funktioniert relativ gut, weil die
66 Bei der den bisherigen Kombinations-Experimenten zugrundeliegenden Version der Worterbucher,
die technisch durch annotierte Text-Dateien realisiert ist, kann es praktische Schwierigkeiten geben,
die syntaktischen Angaben von zielsprachlichen A quivalenten einzeln aufzufuhren. Wenn ein Worterbuch jedoch in Attribut-Wert-Strukturen oder in einer anderen, damit aquivalenten Reprasentation
vorliegt, so konnen die genannten Probleme vermieden werden.

beteiligten Worterbucher modular sind, d.h. weil einzelne Informationstypen jeweils separat gehalten sind, aber untereinander verbunden. Die Kombinations-Experimente fuhren
dort zu Problemen, wo diese Modularisierung nicht vollstandig durchgehalten ist.

2.2.3.6 Zusammenfassung: Strukturierung und Wiederverwendung


nicht-direktionaler Worterbucher

Die Arbeiten zur Worterbuch-Kombination zeigen einige relevante Aspekte der Architektur der nicht-direktionalen U bersetzungsworterbucher sehr deutlich.
 Das nicht-direktionale Worterbuch macht die Bedeutungsbeschreibungen und die
Lesarten explizit, welche der A quivalentwahl zugrundeliegen. Anders als im direktionalen Worterbuch sind alle quellsprachlichen Lesarten gleichermaen detailliert
beschrieben.
 Gleichzeitig zeigen die Experimente, da die nicht-direktionale Worterbuch-Architektur als Grundlage fur die Wiederverwendung ein- und zweisprachiger Beschreibungen dienen kann67 .
Ein analoges Vorgehen bei der Entwicklung formalisierter Worterbucher, oder der
Versuch, die Van Dale-Methode starker zu formalisieren, erscheint als durchaus erfolgversprechend. Die Kombinationsresultate liefern naturlich nur Rohmaterial, aus
welchem der Lexikograph die Eintrage eines zweisprachigen Worterbuchs erst noch
manuell/intellektuell zu entwickeln hat, jedoch wird dem Lexikographen mit automatischen Mitteln doch bereits eine umfangreiche strukturierte Materialsammlung
zur Verfugung gestellt.
 Der Mangel an Strukturierung in den zielsprachlichen Teilen der NL ! X-Worterbucher wirkt sich bei der Kombination storend aus. An dieser Stelle wird die ansonsten durchgehaltene Modularisierung aufgegeben: wenn ein NL ! X-Worterbuch
mehrere A quivalente aus X enthalt, so werden sie in einer weitgehend unstrukturierten Liste angegeben; waren sie \lexikalischen Objekte", vom selben Status wie
die quellsprachlichen \Lesarten", so konnten sie wiederum detailliert beschrieben
werden, und diese Beschreibungen konnten im Konversisionsverfahren besser ausgenutzt werden.
Die Konzeption der Van Dale-Worterbucher ist ein typisches Beispiel dafur, wie einsprachige und kontrastive Beschreibungen miteinander verbunden werden konnen. Unter
Verzicht auf prasentationelle Vorteile (Ezienz, \ambiguitatsbewahrende" A quivalentbeschreibung) werden Beschreibungen bereitgestellt, die sowohl separat in den einsprachigen
Worterbuchern, als auch kombiniert in verschiedenartigen zweisprachigen Worterbuchern
benutzt werden konnen68 .
67 Die Tatsache, da Tripel aus Lemma, Syntaxangabe und Lesarten-Paraphrase als \metalangue" fur
die Worterbuch-Kombination verwendet werden konnen, zeigt, da der von Van Dale eingeschlagene
Weg der Lesartenbeschreibung fur die Erstellung einer mehrsprachigen Faktensammlung hinreichend
allgemein ist.
68 Interessant ist, da bei den Kombinationsresultaten die Benutzerorientierung verloren geht. Die NL !
X-Worterbucher sind fur ein niederlandisches Publikum verfat worden. Die Kombinationsresultate,
beispielsweise fur Deutsch $ Franzosisch, enthalten immer dieselbe Information, egal ob sie nach den
franzosischen oder nach den deutschen A quivalenten sotiert sind. Dies ist jedoch insofern kein Problem,

Diese Ergebnisse zeigen, da die Van Dale-Worterbucher und die Kombinationsresultate
eine interessante Datengrundlage fur ein interlingua-basiertes maschinelles U bersetzungssystem waren.

2.3 Lexikographische Anforderungsde nition


Bei der Entwicklung einer Worterbucharchitektur wird hier ein Ansatz verfolgt, der an
den Methoden des Software-Engineering orientiert ist: Zunachst werden die Rahmenbedingungen festgelegt und eine Anforderungsde nition erstellt, sodann werden Spezi kationen formuliert, auf deren Grundlage beispielhafte Realisierungen entwickelt, getestet
und verbessert werden.
In den vorausgegangenen Abschnitten sind die grundlegenden Merkmale wiederverwendbarer Ressourcen und einige Probleme der Organisation zweisprachiger Worterbucher diskutiert worden. Aus der Diskussion zu beiden Themenbereichen lat sich eine
Anforderungsde nition ableiten, die ein elektronisches Worterbuch bzw. eine lexikalische
Spezi kation (als Grundlage davon) zu erfullen hat.
Die folgenden Abschnitte legen diese Anforderungsde nition fest. Einige der Anforderungen betre en sowohl monolinguale als auch kontrastive Worterbucher, andere betreffen nur einen Worterbuchtyp. Die Strukturierung des zweisprachigen Worterbuchs setzt
naturlich voraus, da die einsprachigen Worterbucher, auf deren Beschreibungen im zweisprachigen Worterbuch zuruckgegri en wird, ihrerseits in geeigneter Weise strukturiert
sind.
Aus der Diskussion in den vorausgehenden Kapiteln lassen sich Elemente einer Anforderungsde nition ableiten.
1. Multifunktionalitat des Worterbuchs: Die hier zu de nierenden Worterbucher und
die ihnen zugrundeliegende Architektur sollen die Wiederverwendung der vorhandenen lexikalischen Beschreibungen in verschiedenen Anwendungskontexten unterstutzen. Das Worterbuch soll in dem Sinne multifunktional sein, da sich aus den im
Worterbuch enthaltenen Beschreibungen lexikalischer Fakten Worterbucheintrage
ableiten lassen, die in verschiedenen Anwendungen, fur interaktive Benutzung und
fur sprachverarbeitende Systeme, benutzt werden konnen. Die Ableitung anwendungsspezi scher Lexikoneintrage kann durch Exportroutinen bewerkstelligt werden.
2. Dokumentation der Kriterien, welche der Strukturierung des Worterbuchs, bzw. der
verwendeten Klassi kation lexikalischer Beschreibungen zugrundeliegen: Multifunktionalitat setzt Reinterpretierbarkeit der Beschreibungen voraus. Die Reinterpretation wird erheblich vereinfacht (und auf eine sichere Grundlage gestellt), wenn die
Klassi kations- und Strukturierungskriterien der lexikalischen Beschreibung detailliert dokumentiert sind. Die Dokumentation kann textuell erfolgen, indem die relevanten Kriterien einzeln angegeben und mit Beispielen illustriert werden; sie kann
als man die Kombinationsresultate eher als eine data base im Sinne von [Martin/Al 1988] au assen
mu, nicht als fertige \front-end Worterbucher". Die Benutzerorientierung wird vom Lexikographen
(als prasentationelles, nicht als deskriptives Kriterium) wieder eingefuhrt, wenn er bei der Erstellung
eines neuen Worterbuchs z.B. die Konversionsresultate gegen die Makrostruktur eines bestehenden
zweisprachigen Worterbuchs abgleicht und modi ziert.

aber auch dadurch erfolgen, da Beschreibungen verschiedener linguistischer Beschreibungsebenen explizit miteinander in Beziehung gesetzt werden (im Sinne von
\Koexistenz-Statements": wenn auf einer gegebenen linguistischen Beschreibungsebene ein Phanomen A vorliegt, so mu gleichzeitig auf einer anderen linguistischen
Beschreibungsebene ein Phanomen B vorliegen69).
3. Robustheit gegenuber A nderungen: Wenn ein gegebenes \multifunktionales" Worterbuch als lexikalische Informationsquelle fur verschiedenartige Anwendungen verwendet werden soll, so mu die Abbildung zwischen der \anwendungsunabhangigen" Reprasentation und den jeweils anwendungsspezi schen Worterbucheintragen
durch Abbildungsregeln (z.B. Import-/Exportroutinen) geleistet werden. Diese Regeln mussen so konzipiert werden, da sie von (kleineren) A nderungen der \multifunktionalen" Ressource weitgehend unabhangig sind. Insbesondere mu sichergestellt werden, da die Hinzufugung lexikalischer Beschreibungen oder die A nderung
der Zuordnung einzelner Lesartenbeschreibungen zu bestehenden Klassen keine Auswirkungen darauf hat, wie die Abbildungsregeln zwischen der multifunktionalen Ressource und den einzelnen Zielanwendungen aussehen. Es soll vermieden werden, da
bei Hinzufugung neuer Eintrage neue Abbildungsregeln geschrieben werden mussen.
4. Reversible Schnittstellen: Idealerweise wurde man davon ausgehen, da die Anwendungen, welche als \Klienten" des \multifunktionalen" Worterbuchs auftreten, auch
als \Lieferanten" dieses Worterbuchs in Erscheinung treten konnen. Dies ist dann
moglich, wenn die Abbildungen zwischen der \multifunktionalen" Reprasentation
und den einzelnen Anwendungen (mindestens im Prinzip) reversibel sind.
5. Modularitat: Modularitat spielt auf verschiedenen Ebenen der intendierten Worterbucharchitektur eine Rolle; die Modularisierung der lexikalischen Beschreibungen ist
eine der zentralen Anforderungen sowohl an monolinguale als auch an kontrastive
Worterbucher.
(a) Kombination monolingualer und kontrastiver Beschreibungen: die einzelsprachlichen Beschreibungen, auf deren Grundlage U bersetzungsvorschlage im zweisprachigen Worterbuch formuliert werden, sollen bei ihrer Konzeption zunachst
unabhangig von der Aufgabe der U bersetzung in eine gegebene Zielsprache formuliert werden konnen. Sie stellen insofern Komponenten (oder Module) eines
Worterbuchsystems dar, welches separate monolinguale lexikalische Beschreibungen miteinander verbindet.
(b) Modularisierung der monolingualen Beschreibungen: Die einzelnen monolingualen Beschreibungen sollen ihrerseits modular sein, beispielsweise im Sinne
eines strati kationellen Ansatzes der linguistischen Beschreibung. Als Arbeitshypothese wird angenommen, da monolinguale Worterbucher dadurch strukturiert werden konnen, da einzelne linguistische Beschreibungsebenen (z.B.
69 Beispiel: Zusammenhange zwischen subkategorisierten grammatischen Funktionen und phrasenstrukturellen Realisierungen der Verbkomplemente, welche durch die grammatischen Funktionen beschrieben worden sind; wenn im Franzosischen die grammatische Funktion subject vorliegt, so kann sie
durch NP, Infinitiv oder Que-Satz, nicht aber durch wh-Satze (indirekte Fragesatze) realisiert werden. Der Nutzen dieser Art von Dokumentation wurde in Abschnitt 2.1.2.4, Seite 31 angesprochen.

Morphosyntax, Konstituentenstruktur, funktionale Syntax, Pradikat-ArgumentStrukturen, pragmatische Beschreibungen) als einzelne Komponenten (oder
Module) der monolingualen Lexika aufgefat werden.
Ziel der Modularisierung soll es sein, sicherzustellen, da fur jede Beschreibungsebene separate Wohlgeformtheitsbedingungen formuliert und mit automatischen Mitteln uberpruft werden konnen (siehe unten, Punkt 6).
Auerdem wird davon ausgegangen, da ein strati kationeller Ansatz der monolingualen Beschreibung besser in den Rahmen von linguistischen Theorien
wie beispielsweise HPSG pat, wie sie in der maschinellen Sprachverarbeitung
weithin Verwendung nden.
(c) Modularisierung der ebenenspezi schen Beschreibungen: Bausteine { Klassen
{ Instanzen: Auch die einzelnen Komponenten der monolingualen Beschreibungen sollten wiederum modular konstruiert sein. Damit die oben in Punkt
3 geforderte Robustheit von Import und Export gegenuber A nderungen des
Worterbuchbestands realisiert werden kann, ist es vorteilhaft, wenn ebenenspezi sche lexikalische Beschreibungen wiederum aus Komponenten aufgebaut
sind.
Die hier vorgeschlagenen Komponenten sind die De nitionen der Beschreibungsmittel, welche als \Vokabular" fur die Beschreibungen jeder einzelnen
linguistischen Beschreibungsebene gelten sollen, weiterhin Generalisierungen,
fur jede einzelne Ebene (also einzelsprachspezi sche Klassen) und schlielich
einzelne Worterbucheintrage oder Komponenten davon. In einem solchen Modell konnen Abbildungsregeln zum \Export" in ein anwendungsspezi sches
Worterbuch an den Bausteinen der Beschreibungen festgemacht werden; die
Bausteine (das Vokabular) der Spezi kationen auf der funktional-syntaktischen
Ebene sind z.B. grammatische Funktionen. Wahrend die Beschreibung bzw.
Klassi kation einzelner Verblesarten u.a. von der zugrundegelegten Theorie
abhangt und sich ofters andern (oder der Diskussion unterworfen sein) kann,
kann man annehmen, da das Vokabular der Lexikonspezi kation weitgehend
stabil ist. Damit die Abbildungsregeln fur den Export \anderungsbestandig"
sind, mussen sie also an den Bausteinen der Spezi kation festgemacht werden.
6. Deskriptive Konsistenz: Fur jedes Worterbuch wird man fordern, da es beschreibungsseitig konsistent sei; die Forderung sieht beinahe trivial aus, ist aber schwer
einzuhalten. Deskriptive Konsistenz bedeutet die Benutzung eines festen Inventars
von Beschreibungsmitteln im gesamten Worterbuch (Bausteine der Spezi kation:
ein wohlde niertes Vokabular), die Festlegung, welche Beschreibungsmittel auf welche Klassen von linguistischen Objekten angewendet werden konnen bzw. angewendet werden mussen, sowie die explizite Festlegung der Zusammenhange zwischen
den Beschreibungsmitteln und den jeweils damit abzudeckenden Phanomenen; nur
wenn der Lexikograph diesen Zusammenhang bewut beschreibt, konnen die u.a.
bei der Wiederverwertung von bestehenden Worterbuchern beobachteten Probleme
synonymer oder polyfunktionaler Angaben vermieden werden.
Die Forderung nach Konsistenz kann in einem Worterbuch, welches in einem constraint-basierten Formalismus reprasentiert wird durch die Forderung nach dem Vorhandensein einer formalen (und durch den Formalismus automatisch uberprufbaren)

Spezi kation ersetzt werden. Eine solche Spezi kation legt genau fest, welche linguistischen Objekte mit welchen Beschreibungsmitteln beschrieben werden mussen
(Inhaltsmodell, content model). Die Spezi kation de niert, wie eine formale Grammatik, die Syntax und Semantik der Angaben und ihrer Kombinationen.
Im Fall von gedruckten Worterbuchern bedeutet die Forderung nach deskriptiver
Konsistenz, da eine Typologie von Eintragen, entlang einer Typologie der zu beschreibenden Phanomene und lexikalischen Objekte erstellt wird, und da analoge
Phanomene bei verschiedenen lexikalischen Eintragen mit analogen Mitteln beschrieben werden. Schlielich sind implizite Angaben zu vermeiden und durch explizite
Angaben oder durch Regeln oder in anderer Weise reproduzierbare \Berechnungsanleitungen" zu ersetzen.
7. Gleichermaen explizite Beschreibung von Quell- und Zielsprache: Das zweisprachige Worterbuch mu die Quellsprache und die Zielsprache als gleichrangige Komponenten enthalten. Die monolinguale Beschreibung von Quell- und Zielsprache
mu jeweils hinreichend explizit sein. Dies betri t auch diejenigen syntaktischen,
semantischen und pragmatischen Eigenschaften der Zielsprache, die aus der Sicht
der Hinubersetzung aus einer gegebenen Quellsprache \trivial" sind, beispielsweise
isomorph.
Werden im zweisprachigen Worterbuch die (zufalligen) Isomorphien zwischen Quellund Zielsprache bei der Prasentation von A quivalentbeschreibungen in der Weise
ausgenutzt, da, entsprechend dem Ziel einer moglichst ezienten Prasentation,
Teilbeschreibungen weggelassen werden, so fuhrt dies zu impliziten Beschreibungen,
die die deskriptive Konsistenz, wie sie oben in 6 gefordert ist, verletzen70 .
Die hier zusammengestellten Anforderungen werden unten, in Abschnitt 3.2 wiederaufgenommen. Dort wird, auf der Grundlage des TFS-Formalismus, ein Vorschlag fur eine
(zunachst monolinguale) Worterbucharchitektur gemacht. Eine monolinguale BeispielModellierung wird in Kapitel 4 vorgestellt. Auf die Abbildung in anwendungsspezi sche
Worterbuchformate wird in Abschnitt 5.2 eingegangen.

2.4 Exkurs: Metalexikographie vs. Worterbuch-Design


Eine Reihe der in diesem Kapitel zusammengestellten Anforderungen beruhen auf der
metalexikographischen Analyse bestehender Worterbucher bzw. Ansatze zur Organisation von Worterbuchern. Diese Worterbuchanalysen stehen in der Tradition der metalexikographischen Worterbuchkritik, wie sie z.B. von Wiegand, Hausmann, sowie in gewisser
Weise Zofgen und anderen vertreten wird.
Die in [Heid/Christ/Heyn 1992] und [Heyn/Christ/Heid 1992] beschriebenen Worterbuchanalysen des OALD3e, aus denen eine Reihe von Kriterien fur die deskriptive und
formale Konsistenz von einsprachigen Worterbuchern abgeleitet werden konnte, setzen
zum Teil auf Wiegands Ansatz zur Beschreibung von Artikelstrukturen in Worterbuchern
auf, und sie konnen als \Implementierung" von Wiegands Worterbuchanalyse-Verfahren
aufgefat werden. Mit Ausnahme von den in [Blasi/Koch 1992] beschriebenen Arbeiten,
die von Mitarbeitern von Herbert Ernst Wiegand durchgefuhrt wurden, gibt es sehr wenig
70 Direktionale zweisprachige Worterbucher sind dewegen weniger leicht wiederverwendbar als nichtdirektionale.

publizierte Resultate von metalexikographischen Untersuchungen, die mit Computerunterstutzung durchgefuhrt worden waren. Die metalexikographische Worterbuchkritik hat
o enbar bislang nur zum Teil von den Moglichkeiten einer maschinenlesbaren Reprasentation von Worterbuchern Gebrauch gemacht71 .
Umgekehrt, und dies ist in gewisser Weise noch erstaunlicher, sind die in der \Computational Lexicography" durchgefuhrten Experimente zur Nutzbarmachung von maschinenlesbaren Worterbuchern, wie sie etwa in [Boguraev/Briscoe 1989] und neueren, vergleichbaren Arbeiten dokumentiert sind, ohne Verweis auf (und u.U. ohne Kenntnisnahme von)
Arbeiten aus der Metalexikographie realisiert worden. Die wenigsten Worterbuchanalysen,
die im Rahmen der Computational Lexicography angestellt wurden, nehmen die Methoden und Ergebnisse der metalexikographischen Worterbuchuntersuchungen auf. Ebenso
sind die Diskussionen um wiederverwendbare Worterbucher bislang im Wesentlichen nicht
im Zusammenhang mit lexikographische Versuchen z.B. von Worterbuchverlagen und Lexikographen gesehen worden, fur praktische Zwecke wiederverwendbare lexikalische Beschreibungen zu erstellen72 .
Eine der methodischen Annahmen, die hier verfolgt werden, ist es, da der Einbezug
von Resultaten aus der Lexikographie in die Diskussion um multifunktionale Worterbucher zu einer Prazisierung der Anforderungsde nition, sowohl an die lexikographische
Beschreibung, als auch an die Abfrage elektronischer Worterbucher fuhrt.
Auch die metalexikographische Worterbuchkritik hat entscheidende Vorteile davon,
wenn ihr Untersuchungsobjekt maschinenlesbar vorliegt, und wenn Methoden der computerlinguistischen Texterschlieung und der (halb-)automatischen Konsistenzprufung und
-kontrolle als Hilfsmittel bei der Untersuchung von Worterbuchern verwendet werden. Das
OALD3e war eines der ersten Worterbucher, welches vollstandig (samtliche in der elektronischen Fassung vorhandenen Worterbucheintrage) metalexikographisch untersucht worden ist, und nicht nur anhand der stichprobenweisen Untersuchung einer Artikelstrecke
oder einer Teilmenge der vorhandenen Eintragen. Gerade im Hinblick auf die Diskussion
um deskriptive Konsistenz von Worterbuchern sind damit Ergebnisse erzielt worden (vgl.
[Heyn 1992]), die in dieser Form auf der Grundlage von Stichproben nicht hatten erzielt
werden konnen.
Es besteht also ein Synergiee ekt zwischen metalexikographischer Worterbuchbeschreibung und computerlinguistischer Arbeit an lexikalischen Spezi kationen. Diesen Synergiee ekt gilt es auszunutzen.

71 Dies, obwohl englische Worterbucher seit rund 10 Jahren, in den letzten 5 Jahren vermehrt, maschinenlesbar verfugbar sind. In Deutschland gibt es allerdings in der Tat zum Zeitpunkt der Abfassung
des vorliegenden Texts noch kein (fur Metalexikographen verfugbares) vollstandiges Worterbuch online. Da viel an metalexikographischer Theoriebildung in Deutschland (an deutschen Worterbuchern)
erfolgt ist, mag hier ein erklarungsrelrevanter Zusammenhang bestehen.
72 Wie die \manuell" durchgefuhrten Worterbuchanalysen der Metalexikographie sind auch die Untersuchungen von Worterbuchern in der Computational Lexicography z.T. \anekdotisch": die relevante
Literatur (z.B. [Alshawi 1989], [Vossen/Meijs/den Broeder 1989]) beschreibt in der Regel lediglich einzelne Probleme oder spezi sche Methoden der Wiederverwendung von traditionellen Worterbuchern.

Kapitel 3
Constraint-basierte lexikalische
Reprasentation und Worterbucharchitektur
Dieses Kapitel stellt die Merkmale von TFS, dem Typed Feature Structure Rewriting
System von Emele und Zajac vor; TFS dient hier als konkretes Beispiel eines constraintbasierten Formalismus1, der fur die Reprasentation lexikalischer Beschreibungen eingesetzt werden kann. Zunachst werden die relevanten Eigenschaften des Formalismus aus
der Sicht der Benutzung im Lexikon vorgestellt, dann wird auf dieser Grundlage ein Vorschlag fur eine Worterbucharchitektur entwickelt. Hier werden zunachst die Prinzipien
dieser Architektur umrissen. In Kapitel 4 werden Beispiellexika vorgestellt und diskutiert,
und in Kapitel 5 wird gezeigt, wie sich die Worterbucharchitektur und die Spezi ka des
Formalismus fur verschiedenartige Abfrageverfahren und zum Teil neuartige Anfragen an
lexikalische Wissensbasen nutzen lassen.

3.1 TFS als lexikalischer Reprasentationsformalismus


Fur die hier diskutierten Arbeiten zur Lexikonmodellierung wird der TFS-Formalismus
(Typed Feature Structures) als Reprasentationssprache fur lexikalische Beschreibungen
verwendet. TFS ist ein auf Constraint-Logik beruhender Formalismus, der in Arbeiten
von [Emele 1994], [Emele 1993], [Zajac 1992] und in [Emele/Heid 1993] im Detail beschrieben ist2. TFS wurde bisher unter anderem zur Kodierung von HPSG-Grammatiken
eingesetzt3 , jedoch nicht in groerem Ausma als Reprasentationssprache fur Lexika.
Die formalen Eigenschaften von TFS sollen im folgenden nicht detailliert dargestellt
werden; eine solche Darstellung ndet sich in den zitierten Arbeiten und in [Emele 1996].
Statt dessen ist es jedoch notwendig, zunachst aus der Sicht der lexikographischen Benutzung auf die speziell fur die lexikalische Reprasentation relevanten Eigenschaften von TFS
einzugehen. Auf dieser Grundlage sind die Vorschlage zur Lexikonarchitektur in Abschnitt
3.2 und die Beispiele fur die lexikalische Kodierung in Kapitel 4 besser nachzuvollziehen.
Auerdem ist uns bisher keine Beschreibung der Benutzung des TFS-Formalismus oder
anderer constraint-basierter computerlinguistischer Formalismen fur die lexikalische Modellierung bekannt4 .

1 Als allgemeine Einfuhrung und U berblick vgl. [Carpenter 1992].


2 In [Emele 1994] and [Emele 1993] nden sich auch Verweise auf weitere Literatur und auf andere
Constraint-Formalismen.
3 Vgl. [Kuhn 1993] als Einfuhrung, [Heid/Kuhn 1994], etc.
4 In [Emele/Heid 1993] werden einfache Beispiele fur die Verwendung von TFS anhand von Eintragen
einer ktiven Personaldatenbank gegeben. Ein Vergleich von lexikalischen Reprasentationssprachen
ndet sich in [Daelemans/Van der Linden 1992], aber dort werden Constraint-Logik-basierte Formalismen nur sehr kurz angesprochen.

3.1.1 Datentyp von TFS


Der im TFS-System verwendete Datentyp sind (komplexe) getypte Featurestrukturen
(Typed feature structures, TFS). Featurestrukturen (Attribut-Wert-Strukturen) sind die
in Uni kationsgrammatiken ublicherweise benutzten Datenstrukturen. Getypte Featurestrukturen liegen vor, wenn Featurestrukturen klassi ziert und gleichartige Strukturen
mit einem \Klassennamen" (in TFS: Typsymbol) versehen werden. Die getypten Featurestrukturen von TFS haben folgende Bausteine:




Ein Typsymbol (das den \Namen" der Klasse von Objekten angibt, zu der eine
Featurestruktur gehort);
Attribut-Namen (zur Angabe von Eigenschaften eines Typs);
Werte der Attribute: diese konnen selbst wieder getypte Featurestrukturen sein
(damit entstehen komplexe getypte Featurestrukturen), oder Listen von getypten
Featurestrukturen, oder atomare Featurestrukturen (s. unten);
Gleichheitsconstraints zwischen Teilbeschreibungen (Bedingungen fur Token Identity: Verweis auf ein- und dasselbe Objekt).

Featurestrukturen sind entweder atomar oder komplex. Atomare Featurestrukturen bestehen entweder aus einem Typsymbol (das keine weiteren Attribute hat,) oder aus einem
systemseitig de nierten Typ, z.B. \integer" oder \string".
Das TFS-System hat eine Reihe von Notationskonventionen fur Featurestrukturen, generell werden Featurestrukturen als Sequenzen von Attribut-Wert-Paaren notiert. Die \lineare" Notation wird bei der interaktiven Eingabe von De nitionen verwendet5 . Das graphische Benutzerinterface des TFS-Systems gibt z.B. Evaluierungsresultate in der ublichen
Matrix-Notation aus. Nachfolgend sind die beiden Notationen schematisch angegeben6 :



lineare Notation: #X=type[F1:t1,


2
3
X f1 t1
6
7
Matrix-Notation: 4: : : 5
type fn tn

..., Fn:tn].

5 Die \lineare" Notation wird in der Regel im folgenden zitiert, wenn Beispiele fur TFS-Beschreibungen
gegeben werden. Einzelne De nitionen werden hier mitunter als \TFS-Statements" bezeichnet.
6 Wir verwenden in unseren Beispielen eine Reihe von Konventionen; die wichtigsten sind nachfolgend
zusammengestellt:
 Attributnamen werden in GROSSBUCHSTABEN geschrieben und von einem Doppelpunkt gefolgt, z.B.
\[ATTRIBUT: ]";
 Wertenamen werden in kleinbuchstaben geschrieben und stehen rechts vom Attributnamen, z.B.
\[ATTRIBUT:wert]";
 Attribut-Wert-Paare werden durch Kommata getrennt, Klammerung erfolgt mit eckigen Klammern; am Ende eines TFS-Statements steht ein Punkt; z.B. \[A:q, B:r, C: [D:s]].";
 Disjunktion wird durch senkrechten Strich (\j") notiert, z.B.: \[A:q|r]."
Weitere Notationskonventionen werden zusammen mit den jeweiligen Konzepten eingefuhrt, vgl. unten, Abschnitt 3.1.2.2 und Funote 16, Seite 78.
:::

TFS erlaubt die Formulierung von rekursiven getypten Featurestruktur-Constraints. Diese Eigenschaft wird bei der Kodierung von Grammatiken ausgenutzt. In Grammatikmodellen wie HPSG werden rekursive getypte Featurestrukturen als Reprasentationsmittel
verwendet7 . Im Lexikon werden rekursive Constraints selten benotigt; mogliche Anwendungen sind die Formulierung von Abbildungsregeln oder ggf. die Kodierung von Prinzipien der Wortbildung.
Im folgenden werden Eigenschaften von TFS vorgestellt, die fur die lexikalische Reprasentation relevant sind; es wird gezeigt, welche Vorteile und Probleme sich fur die
lexikalische Modellierung und fur die Architektur von Worterbuchern fur die Sprachverarbeitung ergeben8 .

3.1.2 Eigenschaften aus dem objektorientierten Paradigma: Relevanz fur


die lexikalische Reprasentation

TFS hat sowohl Eigenschaften von objektorientierten Reprasentationsformalismen als


auch von constraint-basierten Programmiersprachen. Die Kombination der Eigenschaften beider Paradigmen erweist sich fur die Reprasentation linguistischer Information und
fur deren Verarbeitung als besonders nutzlich.
Man kann auch, vereinfachend, sagen, da TFS Eigenschaften einer Wissensreprasentationssprache (Darstellung von Fakten) mit Progammiersprachen-Eigenschaften (Prozessierung von Daten gema Algorithmen zur anwendungs- oder aufgabenspezi schen
Verarbeitung) verbindet. Diese Unterscheidung stimmt nicht genau mit der obigen Unterscheidung uberein; TFS kann jedoch sowohl zur Darstellung linguistischen Wissens,
als auch zur Formulierung von Verfahren benutzt werden, die zur \Verarbeitung" linguistischen Wissens dienen. Das erlaubt es nicht nur, Grammatik und Lexikon in einem
gemeinsamen Format darzustellen (Wegfall von Schnittstellen), sondern auch, lexikalische
Faktenbeschreibungen und beispielsweise Abbildungsregeln fur die Reformatierung oder
den Export der Beschreibungen einheitlich zu reprasentieren9 .
Zu den objektorientierten Eigenschaften von TFS gehort das Vorhandensein eines Klassenkonzepts und damit die Moglichkeit, linguistische Beschreibungen und speziell Lexika
klassi katorisch anzulegen. Daneben spielt das aus der objekt-orientierten Progammierung und der Wissensreprasentation bekannte Konzept der Vererbung von Eigenschaften
eine Rolle, welches zum Ausdruck von Generalisierungen benutzt werden kann. Die Vererbungshierarchien konnen vom Benutzer (d.h. dem Lexikographen) spezi ziert werden.

3.1.2.1 TFS-Hierarchien: Klassi kation lexikalischer Objekte


Merkmalsstrukturen, die dieselben Attribute und dieselben Constraints aufweisen, werden in TFS in einem Typ zusammengefat. Beim Aufbau von Worterbuchern konnen
7 HPSG-Grammatiken konnen also in TFS kodiert werden, ohne da besondere Konstrukte der TFSSprache oder spezielle Verfahren zur Umsetzung der HPSG-Beschreibungen in TFS notig waren. TFS
bietet sich damit als relativ naturlicher Reprasentationsformalismus fur HPSG an.
8 Die Beschreibung beruht neben den oben in Abschnitt auf 3.1 zitierten Aufsatzen auf den Arbeiten
von Emele zur formalen De nition von TFS, [Emele 1996], [Emele/Heid 1993], und auf Erfahrungen
von Arbeiten aus DELIS.
9 Diese Homogenitat wird zum Beispiel in den Arbeiten zu den Export- und Corpus-Such-Werkzeugen
in DELIS (vgl. [Emele/Heid 1993], [Linden 1994]) ausgenutzt. Die Anwendung fur den Export wird
unten in Abschnitt 5.2 beschrieben.

Typde nitionen zur Modellierung der De nition von lexikalischen Klassen benutzt werden. Damit lat sich in TFS-Worterbuchern das Konzept der lexikalischen Klassi zierung
einfuhren.
Wie in Wissensreprasentationssprachen ergibt sich in einem solchen \getypten" Lexikon eine Moglichkeit zur Kontrolle der Konsistenz von der Beschreibungen einzelner
Lexeme, weil jede lexemspezi sche Beschreibung Instanz einer allgemeinen Klasse sein
mu10.
Klassi kation ist fur die Lexikographie kein neues Konzept: schon OALD3 hatte Subkategorisierungsklassen; implizit nden sich Klassi kationen in den allermeisten Worterbuchern. Ein Beispiel fur die Anwendung von Klassende nitionen bei der lexikalischen
Beschreibung mit TFS sind die Typde nitionen, welche in den Worterbuchern des DELISProjekts fur Kon gurationen von semantischen Rollen und von grammatischen Funktionen subkategorisierter Erganzungen aufgebaut wurden11 .
Beim Lexikondesign kann man sich fragen, ob die einzelnen Lexikoneintrage (d.h.
Instanzen) immer terminale Subtypen sein mussen, oder ob nicht auch solche Klassen
Instanzen haben konnen, die ihrerseits noch Subklassen haben. In der Abbildung 3.1 ist
auf der linken Seite eine Hierarchie gezeigt, bei der die non-terminale Klasse B einerseits
Subklassen (B1 und B2) hat, andererseits die Instanzen \a", \b" und \c". Eine solche
Situation wird in der hier benutzten TFS-Kodierung von DELIS nicht erlaubt. Sie wird
rekodiert durch die rechts in Abbildung 3.1 schematisierte Situation, in der die Klasse B
eine weitere terminale Subklasse B3 hat, zu der die Instanzen \a", \b" und \c" gehoren.
Ein Beispiel fur die in Abbildung 3.1 illustrierte Unterscheidung ist die Modellierung einer Hierarchie von Subkategorisierungsklassen. Nehmen wir folgendes an: B1 und B2 in
Abbildung 3.1 sind Klassen, die sich von B dadurch unterscheiden, da sie nur jeweils
spezielle Realisierungen eines Komplements zulassen (z.B. Objektspradikativ nur als Nominalphrase (NP) oder nur als Adjektivphrase (AP) realisiert), wahrend die De nition von
B beide Realisierungen disjunktiv au istet. Der Lexikograph mu nun entscheiden, ob er
die Verben, die beide Realisierungen zulassen, in B3 sammelt oder unter B als Instanzen \aufhangt". Ein ahnlicher Fall liegt vor, wenn B1 und B2 gegenuber B zusatzliche
Merkmale aufweisen, z.B. bei optionalen Argumenten: man konnte sich vorstellen, da der
Lexikograph EN this looks strange to me als Subtyp von this looks strange analysiert:
das erste Besipiel ware dann z.B. in B2, das zweite in B bzw. B3.
Der Unterschied zwischen den beiden Modellierungen ist fur die lexikalische Modellierung insofern relevant, als sich durch die momentane formale Beschrankung, da nur
terminale Klassen Instanzen haben sollen (rechts im Bild 3.1), eine Notwendigkeit fur
die Einfuhrung von mehr Subklassen ergibt, als in einer Situation, wie sie in Abbildung 3.1 links dargestellt ist. Andererseits wird eine klarere Trennung zwischen Klassenund Instanzde nitionen erzielt. Auf diese Fragestellung wird unten, in Abschnitt 4.6.3
noch detaillierter eingegangen: die Entscheidung zwischen \ achen" und \tiefen" LexikonHierarchien hangt hiermit (und mit einer Reihe anderer Parameter) eng zusammen.
10 Die De nition des Instanzbegri s fur TFS wird hier bewut undeutlich gelassen: Instanzen sind in der
hier benutzten Version von TFS-Sprache als terminale Subtypen implementiert. Die Implementierung
der Klasse/Instanz-Unterscheidung in TFS erfolgt im Rahmen des DELIS-Projekts (Arbeiten von
Emele).
11 Diese Anwendung wird unten, in Abschnitt 4.2.3, detailliert beschrieben.

A
A

c
b
a
B2

B1

B1

B3

B2

Abbildung 3.1: Instanzen von terminalen Subklassen

3.1.2.2 Arten von Hierarchien in TFS: Spezialisierung

Klassende nitionen und Klassenhierarchien hangen eng zusammen; das TFS-System kompiliert aus den Typde nitionen, durch welche die lexikalischen Klassen kodiert werden,
eine Spezialisierungshierarchie mit monotoner multipler Vererbung.
Solche Spezialisierungshierarchien konnen mengentheoretisch wie folgt interpretiert
werden: wenn zwischen zwei Typen A und B eine Supertyp $ Subtyp-Relation besteht
(B ist ein Subtyp von A, notiert als: \B A"), dann wird die Menge aller Objekte in B
als eine echte Teilmenge der Menge aller Objekte in A interpretiert.
Subtypen erben alle Eigenschaften ihrer Superklasse(n): die Vererbung erstreckt sich
sowohl auf Attribut-Wert-Paare (\strukturelle Constraints") als auch auf GleichheitsConstraints (vgl. die Datentypen, oben, in Abschnitt 3.1.1).
Im folgenden werden die verschiedenen Arten von Spezialisierungsrelationen skizziert
und mit Beispielen aus einfachen lexikalischen Modellierungen illustriert, die vom TFSSystem unterstutzt werden.
<

Spezialisierungshierarchien von atomaren Typen Bei atomaren Typen mu die

Spezialisierungshierarchie vom Benutzer (z.B. dem Lexikographen) postuliert werden (wie


in Abbildung 3.2 symbolisiert, links mit TFS-Statements, rechts durch eine partielle
Hierarchie), da die Hierarchiebeziehung ja an keinen Unterschieden in Attribut-WertBeschreibungen festgemacht und damit nicht automatisch inferiert werden kann. Dies ist
oft bei den Bausteinen von Lexikonde nitionen der Fall, wenn beispielsweise nicht weiter
analysierte linguistische Attributwerte als atomare Typen de niert werden12 .
Diese Verwendungsweise spielt zum Beispiel eine Rolle, wenn morphosyntaktischer
Werte als Bausteine von Lexikonspezi kationen strukturiert werden sollen (vgl. 3.1), oder
auch bei Sortende nitionen, wenn die einzelnen Sorten nicht weiter mithilfe von AttributWert-Strukturen beschrieben werden sollen:
12 Notation: b
neben
b

<

a. c

<

<

a,

a.

(lies \b is-a a"); vgl. auch a

= b | c.

Der Unterschied zwischen den beiden Notationen wird unten in Abschnitt 3.1.2.5 diskutiert.

a
b < a.
c < a.

Abbildung 3.2: Spezialisierung bei atomaren Typen




Die Typen \masc", \fem" und \neutr" werden als Subtypen von \genuswert"
de niert13 .
(3.1) [GENUS: genuswert].
genuswert =

masc | fem | neutr.

Das folgende Beispiel ist der De nition von Sorten ahnlich: fur die Beschreibung
von Wahrnehmungsverben sind die Wahrnehmungsmodalitaten (\die funf Sinne")
in [Fillmore 1993a] nach zwei Kriterien subklassi ziert worden (\physiological" vs.
\localizational" senses), und jede Klassi zierung unterscheidet wiederum zwei Subklassen. Weder fur die einzelnen \Sinne", noch fur die Klassen wird eine interne
Struktur postuliert (es gibt keine Attribut-Wert-Beschreibungen), aber die Klassen
werden als multiple Hierarchie organsisiert14. Die Statements hierfur sind in 3.2
angegeben, die multiple Hierarchie ist in Abbildung 3.3 dargestellt.
(3.2) *physiological-sense* < *sense*.
*localizational-sense*
*chemical-sense*
*non-chemical-sense*
*distant-sense*
*contact-sense*

*sight*
*hearing*
*touch*
*taste*
*smell*

<
<
<
<
<

<
<
<
<
<

*sense*.
*physiological-sense*.
*physiological-sense*.
*localizational-sense*.
*localizational-sense*.

*non-chemical-sense*,
*non-chemical-sense*,
*non-chemical-sense*,
*chemical-sense*,
*chemical-sense*,

*distant-sense*.
*distant-sense*.
*contact-sense*.
*contact-sense*.
*distant-sense*.

Spezialisierung durch spezi schere Attribut-Wert-Paar-Beschreibungen Sehr

hau g werden Klassen dadurch spezialisiert, da sie gegenuber ihren Subklassen zusatzliche Eigenschaften haben. Dabei treten zwei Falle auf.
1. Ein Typ ist spezi scher als sein Supertyp, wenn er mehr Attribute hat als sein
Supertyp. Diese Situation ist in Abbildung 3.4 dargestellt. Der Typ a hat nur das
Attribut X. Sein Subtyp, b, hat ein zusatzliches Attribut, Y.
13 Allgemeine Typen, wie \genuswert", werden im folgenden mitunter Aufzahlungstyp genannt, weil es
sich um den gemeinsamen (wenigst spezi schen) Supertyp der als Subtypen aufgezahlten alternativen
Werte handelt.
14 Die Klassi kation ist aus deskriptiver Sicht sinnvoll, weil Generalisierungen uber je verschiedene Teilklassen formuliert werden konnen. Fillmore hat z.B. gezeigt, da mit Verben, die eine Wahrnehmung
mit \*chemical-sense*" denotieren, keine propositionalen \percepts" auftreten konnen, oder da
zwar mit \*distant-sense*", nicht aber mit \*contact-sense*", Adjunkte vom Typ from +NP (I
(can) see the ocean from my house; *I (can) touch the lamp from my bed) moglich sind. Auch atomare
Subklassen konnen also durchaus \generalisierungstrachtig" sein.

*physiological-sense*
*sense*

*chemical-sense*
*contact-sense*

*localizational-sense*

*taste*
*smell*

*distant-sense*

*sight*

*non-chemical-sense*

*hearing*
*touch*

Abbildung 3.3: Spezialisierung bei atomaren Typen: Multiple Hierarchie der Wahrnehmungsmodalitaten nach [Fillmore 1993a]
a [X: h].
b < a.
b [Y: k].

a [X: h]
b X: h
Y: k

Abbildung 3.4: Spezialisierung durch zusatzliche Attribute


2. Ein Typ ist spezi scher als sein Supertyp, wenn er fur ein gegebenes Attribut einen
spezi scheren Wert hat als sein Supertyp.
Beispiele hierfur nden sich unter anderem in einer Modellierung eines morphosyntaktischen Teilfragments zur Beschreibung von franzosischen Corpussatzen, wie es in DELIS
entwickelt wurde:
(3.3)
morph[CATEGORY: cat].
(3.4)
(3.5)
(3.6)
(3.7)
(3.8)

cat = n | v.
n-morph < morph.
v-morph < morph.
n-morph[CATEGORY:
NUMB
:

n,
num].

v-morph[CATEGORY:
TENSE
:
VOICE
:

v,
tense,
vce].

Das erste Statement (vgl. 3.3) fuhrt einen Beschreibungsbaustein fur die morphosyntaktische Beschreibung von Wortformen ein (den Typ morph). Dabei wird das Vorhandensein
des Attributs CATEGORY gefordert, als Wert jedoch nur der Aufzahlungstyp, cat, angegben.
Der Typ cat hat (atomare) Subtypen, n und v (3.4). Der Typ morph hat unter anderem
die Subtypen n-morph und v-morph (vgl. 3.5 und 3.6). Sie sind einmal dadurch charakterisiert, da sie fur das Attribut CATEGORY spezi schere Werte haben als der Typ morph,
zum andern durch das Hinzutreten weiterer Attribute (\NUMB" im Fall von n-morph (3.7),
\TENSE" und \VOICE" bei v-morph (3.8)).

Die sich ergebende Teilhierarchie ist in Abbildung 3.5 reproduziert. Dort sind weitere
Subtypen von n-morph und v-morph mitberucksichtigt, fur die hier keine TFS-Statements
angegeben sind15 .
n-morph

gender-n-morph
v-imper-morph
v-cond-morph

morph

v-fin-morph
v-subj-morph
v-ind-morph

v-morph

past-part
v-partic-morph
pres-part

v-inf-morph
v-infinitive-morph

Abbildung 3.5: Ausschnitt aus einer Typenhierarchie fur morphosyntaktische Beschreibungen von Verben und Nomina im Franzosischen

Spezialisierung durch zusatzliche Constraints Ein Typ ist spezi scher als sein Su-

pertyp, wenn er gegenuber dem Supertyp zusatzliche Koreferenzconstraints (vgl. oben in


Abschnitt 3.1.1: Gleichheitsconstraints) aufweist. Dieser Fall ist in Abbildung 3.6 schematisch dargestellt, wobei zur Verdeutlichung die TFS-Statements links in der graphischen
Notation, rechts zusatzlich als gerichtete azyklische Graphen angegeben sind (directed
acyclic graphs, dags); in der dag-Notation werden die Token-Identity-Verhaltnisse besser
deutlich, die durch die Einfuhrung der Koreferenz postuliert werden.
Man konnte sich vorstellen, da man in einer einfachen lexikalisch-semantischen Modellierung \Ortsdeixis" bei Bewegungsverben durch Koreferenz zwischen Start- oder Ziel-Ort
(source, goal) und Sprecher- (oder Beobachter-) Ort ausdruckt. Ein Verb wie FR quitter
(un endroit) subkategorisiert eine Angabe des \Start-Orts"; uber den Ort des Sprechers
oder Beobachters wird nichts ausgesagt. Ein Verb wie FR partir kann als zu einer Klasse
gehorig modelliert werden, die zusatzlich zum \Start-Ort" den Standort des Beobachters
mit einfuhrt und Token-Identity zwischen beiden fordert (nicht Typgleichheit, d.h. nicht
irgendeine Ortsangabe): quitter Paris vs. partir de Paris; vgl. das Schema in Abbildung
3.716.
15 Die Statements, sowie eine detaillierte Erklarung und Motivation der Aufteilung der Typen von Flexionsformen, nden sich in [Heid/Kruger 1994]. Der Typ v-fin-morph hat z.B. Untertypen, die hinsichtlich der TENSE-Werte festgelegt sind; z.B. kodiert der Typ v-subj(onctif)-morph den Tatbestand,
da im Franzosischen nur present, passe compose, imparfait und plusque-parfait Konjunktivformen
bilden.
16 An dieser Stelle sind weitere Notationskonventionen zu erklaren:
 Das \Tag" \#1" (in linearer Notation), bzw. 1 (in graphischer Notation), wird wie in HPSG zur
Angabe koindizierter Teilstrukturen verwendet. In Tagzuweisungen stehen Gleichheitszeichen.
 Das Komma trennt einerseits Attribut-Wert-Paare, andererseits auch { im Fall von multipler Vererbung (vgl. Abschnitt 3.1.2.3 unten) { Supertypen, von denen ein gegebener Typ erbt:
a
b, c. (Lies \a erbt von b und von c").
<

X:

Y:

A: k
B: h

b < a.
b X:
Y:

#1 = h
A: k
B : #1

B
A

Abbildung 3.6: Spezialisierung durch zusatzliche Koreferenz-Constraints: Prinzipien

...
quitter-class

SOURCE: place

...
partir-class

SOURCE:

1 = place

PLACE-OF-OBSERVER:

Abbildung 3.7: Spezialisierung durch zusatzliche Koreferenz-Constraints: ein vereinfachtes


linguistisches Beispiel

A: a1

B: b1

A: a1
B: b1

Abbildung 3.8: Multiple Vererbung mit orthogonalen Teilbeschreibungen


X

A: a1 | a2 | a3 | a4
B: b1 | b2

A: a2
C: c1

A: a2
B: b1 | b2
C: c1

Abbildung 3.9: Multiple Vererbung mit teilweise uberlappenden Teilbeschreibungen

3.1.2.3 Multiple Vererbung


Da TFS multiple Vererbung unterstutzt, kann Information aus verschiedenen Superklassen in die De nition einer Klasse \zusammen ieen", solange die Information kon iktfrei
ist (diese Bedingung wird durch die Benutzung von Uni kation und Subsumption abgepruft); es ist nicht gefordert, da die Informationen, die von den verschiedenen Superklassen ererbt werden, orthogonalen Beschreibungsdimensionen zugehoren mussen (d.h.
da unterschiedliche Attribute involviert sein mussen); damit kann auch durch multiple
Vererbung eine Spezialisierung erzielt werden.
Dies kann relevant sein, wenn zwei Teilhierarchien in der Weise kombiniert werden, da
die eine nur die Moglichkeit vorsieht, da bestimmte Eigenschaften vorhanden sind (z.B.
durch Angabe eines Aufzahlungstyps fur ein bestimmtes Attribut), wahrend die andere
Teilhierarchie spezi sche Werte fur diese Beschreibungsdimension liefert. Man kann sich
vorstellen, da auf diese Weise fur bestimmte deskriptive Generalisierungen Teilhierarchien angelegt werden, und da die Teilhierarchien durch Kreuzklassi kation kombiniert
werden. Dies ist fur die oben in Abschnitt 3.1.2.1 angesprochene Unterscheidung zwischen \tiefen" und \ achen" Hierarchien relevant. Auf diese Fragesstellung wird unten in
Abschnitt 4.6.3 (vgl. Abbildung 4.13, Seite 143) naher eingegangen.
In Abbildung 3.8 ist schematisch eine Situation dargestellt, wo ein Typ Z aus zwei
Supertypen X und Y orthogonale Beschreibungen erbt (und diese \aufsammelt"). In Abbildung 3.9 sind dagegen Eigenschaften von X auch in Y vorhanden, aber Y ist spezi scher.
Z erbt dann die spezi schen Beschreibungen: die De nition von X enth
alt fur die Werte
der Attribute A: und B: Aufzahlungstypen. Y enthalt ebenfalls das Attribut A:, jedoch
mit einem einzelnen Wert (aus dem range, der in der De nition von X angegeben ist). Z
erbt die spezi schere Information, d.h. in diesem Fall \[A: a2]" aus der De nition von Y.
Fur das Attribut B: wird die Aufzahlung moglicher Werte, die in X angegeben ist, an Z
weitervererbt.

3.1.2.4 Ausnutzung von Spezialisierungshierarchien fur die lexikalische


Modellierung

Das Konzept der Spezialisierung erlaubt es, die im Lexikon de nierten Typen hierarchisch
anzuordnen. Dies gilt fur alle Bereiche von Lexikonde nitionen: Bausteine von Teilbeschreibungen, lexikalische Klassen, relationale Abbildungen. Dem entspricht auf der Seite
der linguistischen Modellierung der Versuch, lexikalische Objekte anhand bestimmter linguistischer Eigenschaften in Klassen einzuteilen.
Die Benutzung von Spezialisierungshierarchien hat fur den Lexikonaufbau, analog zur
De nition von Grammatiken, eine Reihe weiterer Vorteile:
 die taxonomische Organisation von linguistischen Objekten hilft Redundanz vermeiden;
 die Hierarchien erlauben es, Generalisierungen auf elegante Weise auszudr
ucken,
indem unterspezi zierte Supertypen und spezi schere Subtypen verwendet werden;
 Klassende nitionen f
uhren eine Typdisziplin ein: die Wohlgeformtheit von Beschreibungen wird durch die Klassende nitionen festgelegt; ahnlich wie durch Integritatsbedingungen bei Datenbanken kann die Wohlgeformtheit von Teilbeschreibungen
uberpruft werden;
 durch die Klassenhierarchie wird die Moglichkeit gegeben, einen automatischen Klassi kator fur TFS zu formulieren.

3.1.2.5 Interpretation von Spezialisierungshierarchien in TFS


Hierarchiestatements in TFS konnen entweder unter der \Closed-World-Assumption" oder
unter der \Open-World-Assumption" interpretiert werden.
Unter der \Closed-World-Assumption" geht man davon aus, da nur die de nierten
Werte erlaubt sind. Nicht in der De nition enthaltene Werte sind unzulassig; die de nierten Subtypen eines gegebenen Typs partitionieren die Domane des Typs vollstandig
(d.h. sie werden mengentheoretisch als echte Teilmengen interpretiert). Weiterhin sind nur
diejenigen konjunktiven Verknupfungen von Attribut-Wert-Paaren zulassig, die als typvertraglich de niert wurden; alle anderen Kombinationen sind unzulassig. Die Negation
eines Werts wird unter der \Closed-World-Assumption" als das Komplement des negierten
Werts de niert17 . In ahnlicher Weise kann Unterspezi kation interpretiert werden: implizit werden alle nicht genannten Constraints, die zu den in einem Ausdruck angegebenen
Constraints typkompatibel sind, als Disjunktion erganzt.
In Abbildung 3.10 ist der einfachste Fall einer Situation schematisch dargestellt, in
der ein Typ a zwei Untertypen b und c hat, die unter der Closed-World-Assumption
interpretiert werden.
Unter der \Open-World-Assumption" wird nur die Teilmengeneigenschaft (nicht: echte
Teilmenge) gefordert. Subtypen, die unter der \Open-World-Assumption" de niert werden, partitionieren die relevante Domane nicht vollstandig; man kann Subtypangaben
17 Wird z.B. folgendes de niert: \[GENUS: mjfjn].", so kann eine Angabe \[GENUS: 6= n]" automatisch
als gleichwertig mit \[GENUS: mjf]" interpretiert werden. Vgl. aber die Einschrankungen hinsichtlich
Negationen, die in TFS in seiner momentanen Form gelten.

a
b

a
c

a = b | c

Abbildung 3.10: Interpretation von TFS-Hierarchien unter der Closed World Assumption
unter der \Open-World-Assumption" mit der Nennung von Beispielen vergleichen: weitere Subtypen konnten existieren, sind aber in der relevanten Version des Modells nicht
genannt.
Hierarchiestatements unter der \Closed-World-Assumption" werden als Aufzahlungen
angegeben, z.B. \a = b | c | d." Subtypen unter der \Open-World-Assumption" werden einzeln durch \is-a"-Statements eingefuhrt, z.B. \b a.", \c a."
Die Unterschiede zwischen den beiden Interpretationen spielen bei der Abfrage von
TFS-Lexika eine Rolle, vgl. Abschnitt 5.3.1.
<

<

3.1.3 Eigenschaften aus dem constraint-basierten Paradigma: Relevanz fur


die Erstellung von (lexikalischen) Spezi kationen

Zu den Eigenschaften von TFS, die auf constraint-basierte Formalismen zuruckgehen,


gehort die Moglichkeit, Appropriateness-Constraints und relationale Constraints zu formulieren, sowie die Moglichkeit der Ad-hoc-Abfrage von TFS-Beschreibungen.

3.1.3.1 Appropriateness-Constraints
Appropriateness-Constraints kann man sich fur den Zweck der lexikalischen Modellierung
wie Integritatsbedingungen von Datenbanken vorstellen. Sie stellen Wohlgeformtheitsbedingungen fur die in TFS modellierten Beschreibungen dar. Mit Hilfe von AppropriatenessConstraints wird geregelt, welche Attribute und welche Werte fur eine Typde nition gultig
sind (strukturelle Constraints): sie legen also fest, welche Attribute ein Objekt haben mu,
damit es von dem zur Rede stehenden Typ ist. Umgekehrt kann fur ein Objekt, welches
vom TFS-System uberpruft werden soll, aus dem Vorhandensein bestimmter Attribute
darauf geschlossen werden, welchem Typ es angehort.
Ebenfalls zu den Appropriateness-Constraints gehoren De nitionen von Wertebereichen fur Attribute (vgl. die De nition fur GENUS: \masc | fem | neutr")18 .
Anhand von Appropriateness-Constraints kann in Eingabewerkzeugen eine einfache
Uberprufung der syntaktischen Korrektheit der interaktiven Eingaben (\RechtschreibeKorrektur" fur Werte!) erfolgen. Auerdem kann an jeder Stelle dem Lexikographen, der
ein Worterbuch erganzt, die Menge der fur ein Objekt eines bestimmten Typs passenden
Attribute und Werte angezeigt werden (z.B. konnten aus den Appropriateness-Aussagen
Auswahlmenus generiert werden, die fur ein bestimmtes Objekt nur genau die Liste der
\anwendbaren" Attribute und Werte enthalten).

18 Vgl. die Beispieldiskussion oben in Abschnitt 3.1.2.2 und die Diskussion der Probleme, die sich aus
dem Fehlen solcher Festlegungen ergeben, unten in 2.1.2.6, Seite 37.

3.1.3.2 Relationale Constraints


Neben den strukturellen Constraints lassen sich in TFS auch relationale Constraints ausdrucken. Sie konnen u.a. dazu benutzt werden, Zusammenhange zwischen Teilbeschreibungen verschiedener linguistischer Ebenen oder, im Falle von Eintragen eines U bersetzungsworterbuchs, Zusammenhange zwischen quell- und zielsprachlichen Lexikoneintragen auszudrucken.
Mit Hilfe von relationalen Constraints wurden beispielsweise in den DELIS-Worterbuchern die Zusammenhange zwischen verschiedenen Beschreibungsebenen modelliert
(vgl. das Schema in Abbildung 3.11 und die detaillierte Beschreibung in Abschnitt 4.4),
die in anderen Ansatzen, wie etwa LFG, durch separat formulierte \Linking Rules" ausgedruckt werden. Das Statement 3.9 enthalt die TFS-Notation des Constraints, welches
die drei in den DELIS-Worterbuchern beschriebenen Ebenen verbindet.
(3.9)
fe[FE:
#fe = role,
GF:
PT:

#gf = func,
#pt = phrasetype]:- sem-gf[FE:
GF:
gf-ph [GF:
PT:
sem-ph[FE:
PT:

MO/SY:

#fe,
#gf],
#gf,
#pt],
#fe,
#pt].

c-str.
...

SYN:

f-str.
...

SEM:

lex. sem.
...

Abbildung 3.11: Relationen zwischen partiellen Beschreibungen verschiedener linguistischer Beschreibungsebenen


Die Relationen sind in TFS \rei ziert": statt als Relationen zwischen einzelnen Objekten (d.h. als eigenen Datentyp \Relation") kann man sich die Constraints auch als eigene Objekte mit Attributen fur die verbundenen Teilbeschreibungen, oder, einfacher, als
Koexistenz-Statements fur Teilbeschreibungen vorstellen: das gleichzeitige Vorhandensein
der partiellen Beschreibungen wird durch diese Constraints erzwungen. Im Beispiel 3.9
wird erzwungen, da als Werte der Attribute FE (fur Frame Element), GF (fur Grammatical
Function) und PT (fur Phrase Type) jeweils nur Typen eingesetzt werden, die gleichzeitig
die Abbildungsconstraints erfullen, die in sem-gf, gf-ph und sem-ph formuliert sind.

Ein weiteres Beispiel ist die Modellierung der U bersetzungsrelation in Zajacs TFS-Kodierung des Transfers auf Funktionalen Strukturen (f-Strukturen) der LFG. Die U bersetzungsrelation ist rei ziert und als Attribut-Wert-Struktur mit zwei ausgezeichneten Attributen (bei Zajac FF und FE) kodiert; es gibt ein Attribut, unter welchem die quellsprachliche f-Struktur eingebettet ist (hier FE, fur \F-Struktur, Englisch") und eines, unter dem
die zielsprachliche f-Struktur eingebettet ist (im Beispielfall fur die f-Struktur Franzosisch).
Die U bersetzungsrelation tau-xy ist wie folgt de niert:
tau-xy [FE: e-xp,
FF: f-yp].

Dabei gilt:
ist ein Typ aus der englischen Grammatik (Phrasenstruktur-Typ) und kann
intern eine Featurestruktur sein (\x-Kategorie");
 f-yp ist ein Typ aus der franzosischen Grammatik (Phrasenstruktur-Typ) und kann
intern eine Featurestruktur sein (\y-Kategorie").
 bersetzungsrelation, postuliert als gultig zwischen den Werten der
 tau-xy ist eine U
Attribute FE und FF.
Die U bersetzungsrelation sagt nichts uber die U bersetzungsrichtung aus.
Relationale Constraints konnen genauso hierarchisiert werden, wie alle anderen Featurestruktur-Typen (aufgrund der Rei zierung der Relation gibt es keinen formalen Unterschied). In Zajacs Kodierung gibt es Subtypen dieser allgemeinen U bersetzungsrelation
tau. So ist beispielsweise tau-nn eine Relation f
ur die U bersetzung von NPen des Englischen durch NPen des Franzosischen; sinngema tau-advv zur U bersetzung von englischen
Satzadverbien durch franzosische Verbalphrasen (vgl. [Zajac 1989], [Zajac 1992]).
 e-xp

3.1.4 Das Lexikon als Spezi kation: Vorteile und Probleme bei der
Verwendung von TFS fur die lexikalische Modellierung

Aus dem Gebiet der Formalen Sprachen ist die Vorstellung bekannt, da eine Menge von
Regeln gemeinsam die Menge aller wohlgeformten Objekte und nur diese de niert. Dieses
Konzept wurde zuerst auf formale Grammatiken ubertragen; hier wird dafur argumentiert,
lexikalische Modellierungen als Spezi kationen anzulegen: die Bausteine der lexikalischen
Modellierung und die Bedingungen fur ihre Kombination sollen so de niert werden, da
sich nur wohlgeformte Beschreibungen lexikalischer Objekte ergeben.
Hierin liegt der Unterschied zwischen einer Spezi kation und einem Inventar von
Etiketten19 . Ein Inventar von Etiketten ist eine Liste moglicher Beschreibungsmittel, aus
der der Lexikograph auswahlen (eine \vernunftige Beschreibung" zusammenstellen) mu.
Bei einer Spezi kation wird zusatzlich zur De nition des Beschreibungsvokabulars (der
Etiketten) ein Regelsystem angegeben, nach dem die einzelnen Beschreibungsmittel kombiniert werden konnen20 .
19 Vgl. die Diskussion oben, in Abschnitt 2.1.2.6.
20 Ebenso verhindern auch Uni kationsgrammatiken wie z.B. LFG nicht von vorneherein die Formulierung von Teilbeschreibungen, die der Intention des Lexikon-Designers widersprechen und die durch
eine constraint-basierte Spezi kation ausgeschlossen werden konnen. Beispeilsweise verhindert in ei-

U ber die \rein syntaktische" Konsistenz von Worterbucheintragen hinaus, die auch mit
einfacheren Mitteln, wie etwa der Vorgabe einer Document Type De nition (DTD) von
SGML und einfachem Testen der aueren Form eines Lexikoneintrags sichergestellt werden
konnte, lat sich mit Hilfe von TFS auch ein Inhaltsmodell der lexikalischen Typde nitionen festlegen. In einem Worterbuch, welches eine Hierarchie von Typen enthalt, kann fur
jeden Typ detailliert festgelegt werden, welche Attribute und welche Wertebereiche jeweils
zutre en sollen. Auerdem konnen Aussagen uber die Kookurrenz bestimmter AttributWert-Konstellationen gemacht werden, die das gemeinsame Auftreten von bestimmten
Beschreibungen regeln21 .
Oben, in Abschnitt 2.1.2.1 wurden \traditionelle" Worterbucher de niert: als Ressourcen, fur die kein Inhaltsmodell vorliegt. Bis in die jungste Zeit hinein (vgl. z.B. Multilex, Eagles) wurden Vorschlage fur lexikalische Beschreibungen gemacht, die zwar
auf Attribut-Wert-Paar-Beschreibungen aufbauen, die jedoch wiederum keine Aussage
daruber machen, wie lexikalische Objekte klassi ziert werden sollen und welche Attribute
bzw. Attribut-Wert-Paare fur welche Typen von lexikalischen Objekten verwendet werden
durfen. Dort fehlt eine Spezi kation im hier beschriebenen Sinne; man konnte die Worterbuchmodelle von Eagles und Multilex in dieser Hinsicht durchaus als \traditionelle"
Ressourcen bezeichnen.
Die hauptsachlichen Vorteile von TFS fur die lexikalische Modellierung und Abfrage
liegen in der Einheitlichkeit des Formalismus, der Unterstutzung einer modularen, klassi zierenden und zugri sneutralen Worterbucharchitektur (die Grundlagen der Architektur
sind separat dargestellt in Abschnitt 3.2, ab Seite 89), sowie in der Unterstutzung von
Konsistenzkontrolle und Konsistenzerhaltung, sowohl bei der lexikalischen Modellierung
selbst, als auch in Werkzeugen fur Dateneingabe, Worterbuchaufbau und -verwaltung22 .
Problematisch ist die Tatsache, da die Ezienz bei der Verarbeitung von TFS (und
anderen constraint-basierten Formalismen) weit hinter Datenbanken, Konstrukten von
Programmiersprachen, Finite-State-Implementierungen usw. zuruckbleibt. Auerdem wird
die Handhabung groer Datenmengen noch nicht besonders unterstutzt. Im folgenden werden die genannten Punkte naher ausgefuhrt.

3.1.4.1 Einheitlichkeit des Formalismus


Mit Hilfe von TFS konnen samtliche linguistischen Beschreibungen reprasentiert werden,
fur welche Merkmalsstrukturen eine geeignete formale Reprasentation darstellen. Mit einer solchen einheitlichen Darstellung von Information aller Ebenen fallen Schnittstellen
und die oft mit der \U bersetzung" zwischen unterschiedlichen Datentypen verbundenen
Probleme weg.
Der Wegfall von Schnittstellen ist fur die \integrierte" Verarbeitung von Informationen
ner Uni kationsgrammatik nichts die Einfuhrung neuer Werte fur eine gegebenes Attribut, solange
nicht explizit ein Widerspruch zwischen Attribut-Werten postuliert und auf diese Weise ein \feature
clash" bei der Uni kation ausgelost wird. Die Modellierung lexikalischer Spezi kationen mithilfe von
TFS fuhrt also zu erheblich starkeren Restriktionen und einer erheblich strengeren Kontrolle der
Wohlgeformtheit der Beschreibungen als dies in einer Uni kationsgrammatik moglich ware.
21 In Generalized Phrase Structure Grammar, GPSG, wurde zu einem analogen Zweck ein MetaKonstrukt eingefuhrt, sog. \Feature-Cooccurrence-Restrictions" (FCR). In TFS ist kein (extern abzuprufendes) Meta-Konstrukt notig.
22 Solche Werkzeuge wurden in DELIS spezi ziert; sie sind in [Emele/Heid/Humphreys 1993] und in
[Olivier/Heid 1994] detailliert beschrieben, werden aber hier nicht naher erlautert.

aller Beschreibungsebenen und fur die Anlage und Benutzung kontrastiver Worterbucher
fur die U bersetzung ein entscheidender Vorteil. In maschinellen U bersetzungssystemen
der Eurotra-Generation muten Reprasentationen von Satzen ebenenweise abgearbeitet
werden, und zwischen Reprasentationen von je zwei linguistischen Beschreibungsebenen
wurden U bersetzungsregeln formuliert. Ein solches Modell kann nur Phanomene behandeln, bei denen sich die Interaktion zwischen verschiedenen linguistischen Beschreibungsebenen im Lexikon oder in der Grammatik auf jeweils adjazente Beschreibungsebenen
beschrankt.
Probleme ergeben sich insbesondere, wenn diese Art von Reprasentation, wie im Fall
von Eurotra, mit einer sequenziellen Architektur eines maschinellen U bersetzungssystems zusammentri t. Ist die Abbildung zwischen zwei Ebenen \blockiert", so mu entweder umfangreiches \Backtracking" angestoen werden, oder beim Design der Wissensquellen mu eine idiosynkratische Losung gefunden werden, bei der Information uber
verschiedene Ebenen hinweg transportiert und ggf. an \unpassenden Stellen" im Lexikon
aufgefuhrt wird, z.B. in der Form von fur diesen speziellen Fall eingefuhrten Features.
Ein einfaches Beispiel fur die Interaktion nicht-adjazenter Ebenen stellt die U bersetzung franzosischer Partizipien Prasens ins Deutsche dar. In der Regel konnen solche
Konstruktionen strukturisomorph ubersetzt werden, wie die Beispiele 1a und 1b zeigen.
(1) a. une solution dependant du contexte
b. eine vom Kontext abhangende (oder: abhangige) Losung
Probleme entstehen, wenn franzosische Konstruktionen der in 1a angegebenen Art Modalverben enthalten, wie dies in 2a und 2b der Fall ist:
(2) a. un train devant attendre le passage d'un express
b. une o re pouvant ^etre retenue
Der Grund fur die Schwierigkeiten bei der U bersetzung ist, da im Deutschen fur die Modalverben konnen, mussen, sollen keine Partizipien Prasens existieren (*konnend, *mussend,
*sollend). Statt dessen mussen die Satze 2a und 2b wie 3a und 3b ubersetzt werden:
(3) a. ein Zug, der die Durchfahrt eines Expresszugs abwarten mu
b. ein Angebot, das angenommen werden kann
Die Information daruber, da die deutschen Modalverben konnen, mussen, sollen keine
Prasenspartizipien bilden konnen, ist ein Faktum der Morphologie oder der Morphosyntax des Deutschen23 ; dieses Faktum gehort jedoch nicht in ein U bersetzungsworterbuch,
weil es per se keine kontrastive Relevanz hat, sondern lediglich durch den Zufall von
U bersetzungssituationen wie in den Beispielen 2a und 2b fur die U bersetzung der speziellen Einzelfalle relevant ist. In sequenziellen U bersetzungssystemen hat man versucht,
das U bersetzungsworterbuch mit speziellen U bersetzungsregeln anzureichern, die solche
und ahnliche Einzelfalle zu behandeln erlauben: da die morphosyntaktischen Eigenschaften der Zielsprache auf der fur den Transfer ausgewahlten Ebene24 normalerweise \noch
:::

:::
:::

:::

:::

:::

:::

:::

:::
:::

:::

:::

23 Ob man das Fehlen der Partizipien in der morphologischen Beschreibung postuliert, oder ob man es
alternativ aus allgemeineren syntaktischen Annahmen ableitet, hangt vom Beschreibungsansatz ab.
24 In Eurotra wurde die fur den Transfer benutzte Reprasentation \Interface-Struktur (IS)" genannt,
vgl. die Abbildung 3.12, in der eine Mischung aus LFG- und Eurotra-Terminologie verwendet wird.

nicht" verfugbar sind, mute quellsprachliche morphosyntaktische Information als Testbedingung fur die Auswahl aus moglichen zielsprachlichen Konstruktionen benutzt werden;
sinngema wurde getestet, ob ein Partizip Prasens, vorliegt, und ob das zu ubersetzende
Pradikat ein Modalverb ist; im positiven Fall wurde eine U bersetzung mit Relativsatz
erzwungen bzw. im Lexikon festgelegt.
Eine solche \kasuistische" Beschreibung fuhrt zu Problemen theoretischer und praktischer Art: einerseits werden in solchen Regeln verschiedene Beschreibungsebenen von
Quell- und Zielsprache vermischt, und andererseits fehlt diesen sehr speziellen, kontextspezi schen Regeln jeder Generalisierungswert. Wegen der fehlenden Modularitat solcher
Beschreibungen ist es auerdem sehr schwer, Worterbucher mit solchen Bestandteilen zu
warten und zu erganzen.
QUELLSPRACHE

MO/SY:

ZIELSPRACHE

[]

MO/SY:

[]

c-Struktur

[]

c-Struktur

[]

f-Struktur

[]

f-Struktur

[]

IS-Struktur [ ]

Transfer

IS-Struktur [ ]

Abbildung 3.12: Schema des Eurotra-U bersetzungsmodells: Probleme der sequenziellen


Architektur und der gerichteten Abbildungen zwischen adjazenten Beschreibungsebenen
Mithilfe relationaler Constraints lassen sich in einem TFS-basierten System Bedingungen uber die Interaktion beliebiger, nicht notwendig adjazenter, Ebenen formulieren. Bei
der A quivalentwahl konnen beispielsweise pragmatische Constraints (z.B. Thema-RhemaGliederung, \lexikalisch-pragmatische" Markierungen, usw.) ohne zusatzlichen Aufwand
ins Worterbuch eingebracht werden.

3.1.4.2 Ad-hoc-Abfrage

Bei der Abfrage von in TFS reprasentierten Lexika kann man die dem TFS-System
inharenten Evaluationsmechanismen ausnutzen. Man braucht dazu nur Teilbeschreibungen eines linguistischen Objekts anzugeben, und das TFS-System kann anhand der vorhandenen De nitionen den fehlenden Rest der Beschreibung erganzen, bis wieder ein
vollstandig spezi ziertes linguistisches Objekt vorliegt.
Die Evaluation solcher beliebiger Anfragen25 ist eine typische Eigenschaft von constraint-basierten Systemen. Aus den Typde nitionen kompiliert das TFS-System einen
25 Zur Terminologie: Wie bei Datenbanken wird hier von einzelnen \Anfragen an die TFS-Wissensbasis"
gesprochen. Der Vorgang insgesamt wird als Abfrage (vgl. Datenbankabfrage) bezeichnet. Die Ad-hocAbfrage wird so genannt, weil keine systemseitige \Vorbereitung" notig ist (anders als in Datenbanken,
wo Indizierung, der Aufbau von Hash-tables etc. uberhaupt erst die Abfrage ermoglichen, vgl. unten,
Abschnitt 5.1.3): die Abfrage kann \ad hoc" erfolgen.

Typenverband. Dieser enthalt Information uber die Attribute und Wertebereiche, die fur
jeden Typ de niert sind. Bei der Evaluation wird Typinferenz verwendet: aufgrund der in
der Anfrage angegebenen Attribute und Werte kann das System die Zugehorigkeit des in
der Anfrage angegebenen Objekts zu einem der de nierten Typen inferieren. Je weniger
Information in der Anfrage gegeben wird, desto mehr Objekte erfullen die Anfrage. Sie
werden einzeln als mogliche Losungen aufgezahlt. Dabei werden die jeweils relevanten
Constraints angewendet und vollstandige, wohlgeformte Objekte ausgegeben.
Eine Anfrage mit unterspezi zierten, partiellen Beschreibungen fuhrt also zur Erganzung der fehlenden Teile und zu einer vollstandigen Ausgabe. Auf diesem Prinzip beruht
die in Abschnitt 1.2.2 skizzierte HPSG-basierte U bersetzung, welche in [Heid/Kuhn 1994]
beschrieben und von Kuhn prototypisch modelliert worden ist. Abbildung 1.4, Seite 16,
stellt das Verfahren schematisch dar.
Im Lexikon lat sich die Ad-hoc-Abfrage in verschiedenen Anwendungszusammenhangen
verwenden. Beispiele hierfur werden unten im Abschnitt 5.1 diskutiert. Sie werden ausfuhrlicher gezeigt, weil die sich aus den Moglichkeiten der Ad-hoc-Abfrage ergebenden Konsequenzen fur die Architektur von Lexika interessant (und bisher noch nicht speziell genutzt
und beschrieben worden) sind.

3.1.4.3 Unterstutzung einer zugri sneutralen Worterbucharchitektur

Die Tatsache, da lexikalische Klassenhierarchien de niert werden konnen, und da die
Klassenhierarchien fur verschiedene Beschreibungsebenen voneinander separat gehalten
und durch relationale Constraints miteinander verbunden werden konnen, unterstutzt
eine Architektur, bei der einzelne linguistische Beschreibungsebenen als Module des Worterbuch-Modells aufgefat werden.
Vorschlage fur eine Worterbucharchitektur, die ein solches Konzept realisiert, werden
in Abschnitt 3.2 im Einzelnen diskutiert. Dabei wird jede Beschreibungsebene als eigenes Modul aufgefat, das als Spezialisierungshierarchie von Typen organisiert ist. U ber
relationale Constraints von TFS sind die einzelnen Komponenten miteinander verbunden.
Die einzelnen Worterbuch-Module weisen untereinander keine Ordnung auf: jede der
linguistischen Beschreibungsebenen ist gleichberechtigt, und, jede Ebene oder jede Kombination kann als Einstiegspunkt fur die Abfrage von lexikalischen Beschreibungen gewahlt
werden.

3.1.4.4 Probleme bei der Benutzung des TFS-Formalismus fur


Worterbucher

TFS hat nutzliche Eigenschaften als Spezi kationssprache fur das Rapid Prototyping von
lexikalischen Spezi kationen. Probleme ergeben sich aufgrund der Implementierung (und
der Mechanismen, die zur Evaluation verwendet werden) hinsichtlich der Ezienz und der
Moglichkeiten, groe Datenmengen zu verarbeiten. TFS wurde als Spezi kationssprache
entwickelt, nicht als \Produktionssystem" fur sehr umfangreiche Anwendungen.
Die bei der Evaluation von TFS benutzten Verfahren, u.a. Uni kation und Subsumptionstests, sind zeitaufwendig. Den konzeptuellen Vorteilen der Ad-hoc-Abfrage steht das
Fehlen von Indizierungsmoglichkeiten und damit eine relativ langsame Verarbeitung als
Nachteil gegenuber26 .
26 In WordManager (vgl. [Domenig 1989], [Domenig/ten Hacken 1992]) werden fur alle relativ zum

Das Problem der Datenmenge spielt fur alle constraint-basierten Formalismen eine Rolle:
die vom Umfang her relativ kleinen Anwendungen, mit denen bisher in der Computerlinguistik gearbeitet wird, kommen ohne persistente Speicherung der Daten aus: alle Daten
werden im Hauptspeicher des Rechners gehalten. Wenn man Worterbucher von ca. 50.000
Lemmata (Format des Petit Robert) reprasentieren und verarbeiten wollte, so wurden
sich mit den bisherigen Methoden technische Probleme ergeben. Die Kombination von
constraint-basierten Systemen mit Datenbanken27 ist derzeit noch ein Forschungsgegenstand. Die praktische Verwendbarkeit von TFS fur die Kodierung groer Datenmengen
(mehrere 10.000 Eintrage) kann erst getestet werden, wenn Ergebnisse von Arbeiten zur
Kombination von TFS mit Datenbanken vorliegen.

3.2 Funktionale Spezi kation: Vorschlag fur eine Worterbucharchitektur


In Abschnitt 2.3 wurde eine Anforderungsde nition fur wiederverwendbare monolinguale
und kontrastive Worterbucher gegeben. Im Abschnitt 3.1 wurden die formalen Eigenschaften von TFS eingefuhrt, und es wurde damit ein U berblick uber die Moglichkeiten
und Hilfsmittel der Modellierung lexikalischer Beschreibung gegeben.
Im folgenden Abschnitt wird eine funktionale Spezi kation der intendierten Worterbucharchitektur gegeben28 .

3.2.1 U berblick
Zunachst werden im Folgenden die Eigenschaften, die ein constraint-basiertes Worterbuch
auszeichnen im U berblick zusammengestellt. Details zu den einzelnen Architekturprinzipien werden in den folgenden Abschnitten (3.2.2 bis 3.2.5) gegeben. In Abschnitt 3.2.6
wird die Verbindung mit der Anforderungsde nition aus Abschnitt 2.3 hergestellt.
Folgende Eigenschaften sind fur eine constraint-basierte Worterbucharchitektur zentral:
1. Die Worterbucher sind modular.
Module sind aus (Teil-)Modulen aufgebaut. Da die Worterbucher wie formale Spezi kationen angelegt werden sollen, wird fur jedes Modul zwischen \Bausteinen" und
Kombinationsmoglichkeiten der Bausteine (oder: zwischen Vokabular und Termen)
unterschieden. Eine mogliche Strukturierung29 beruht auf dem folgenden Schema:
(a) Module fur die einzelnen Sprachen;
(b) Je Sprache Module fur die (im Worterbuch erfaten) Beschreibungsebenen;
Datenmodell moglichen Anfragetypen Indexe angelegt. Das System ist dann zwar bei der Abfrage
schnell, hat aber einen groen Platzbedarf und benotigt relativ viel Zeit zum Aufbau der Indexe bei
Modellveranderungen und Erganzungen.
27 Es gibt Vorschlage hierzu von At-Kaci; zu TFS jetzt [Van der Laan 1996]. Vgl. hierzu die Diskussion
unten in Abschnitt 5.1.3, Seite
28 Eine formale Spezifkation in abstrakter Form (z.B. in Backus-Naur-Form, in der Form einer DocumentType-De nition o.a.) wird hier nicht gegeben. In Kapitel 4 werden aber in der TFS-Sprache implementierte Anwendungsbeispiele im Detail diskutiert, anhand deren die formalen Aspekte deutlich werden.
Es handelt sich um die Modellierung von Wahrnehmungs- und Kommunikationsverben, wie sie im
Rahmen des DELIS-Projekts realisiert wurde.
29 Die hier vorgeschlagene Strukturierung wurde in den Worterbuchfragmenten von DELIS realisiert.
Vgl. Kapitel 4.

(c) Je Beschreibungsebene
i. ein separates Modul fur die ebenenspezi schen Beschreibungsmittel (\Bausteine", d.h. De nition des Vokabulars);
ii. Abstrakte Klassen (Kombinationsmoglichkeiten der Bausteine);
iii. Lexikalische Instanzen.
2. Die Module sind klassi katorisch.
Die Klassi kationen sind als Spezialisierungshierarchien (z.B. von TFS) modelliert.
3. Die Module interagieren durch Relationen.
Die Interaktion zwischen Modulen wird durch richtungs- und ordnungsunabhangige
Konstrukte (z.B. relationale Constraints von TFS) modelliert.
4. Die Module sind detailliert dokumentiert.
Die Dokumentation wird textuell und durch relationale Abbildungen zwischen Modulen bereitgestellt.
5. Die Worterbucher sind zugri sneutral.
Die Module sind gleichberechtigt. Es gibt keine reihenfolgeabhangige Information.
Bei der lexikalischen Modellierung soll darauf verzichtet werden, Beschreibungen
einer linguistischen Beschreibungsebene auf eine andere Ebene \mitzufuhren". Partielle Beschreibungen verschiedener Beschreibungsebenen sollen unabhangig voneinander zugreifbar (und als Abfragekriterium benutzbar) sein.
Die hier postulierten Eigenschaften werden im Folgenden weiter ausgefuhrt. Dabei werden die oben als Punkte 1 und 2 de nierten Eigenschaften aus Grunden der einfacheren
Prasentation in umgekehrter Reihenfolge besprochen.

3.2.2 Klassi katorische und strati kationelle Worterbucher

Die hier vorgeschlagenen Worterbucher sind klassi katorisch. Die Typen der TFS-Sprache
werden zur Kodierung lexikalischer Klassen verwendet. Jede lexikalische Klasse ist durch
einen Typ de niert, fur den es eine Typde nition im Sinne von TFS gibt30.
Die Worterbucher sind auerdem strati kationell: Klassi zierungen orientieren sich an
einem Modell linguistischer Beschreibungsebenen, wie es z.B. in HPSG (Semantik { Syntax { \Phonologie") oder in LFG (c-Struktur vs. f-Struktur) oder, besonders ausgepragt,
in Mel'cuk's Meaning , Text-Theorie vorkommt (dort gibt es sieben verschiede Ebenen,
vgl. [Mel'cuk 1988]).
Die DELIS-Worterbucher, die hier als Beispielimplementierung diskutiert werden, unterscheiden z.B. fur lexikalisch-semantische Beschreibungen, syntaktische Subkategorisierungsbeschreibungen und morphosyntaktische Beschreibungen jeweils separate \ebenenspezi sche" Klassi zierungen. Fur jede Beschreibungsebene wird eine Klassen- (bzw.

30 Vgl. oben, Abschnitt 3.1.2.1.

Typen-) Hierarchie entwickelt. Die Beschreibungen einzelner Worter bzw. ihrer Lesarten
im DELIS-Worterbuch verweisen auf die jeweiligen Klassen der verschiedenen Ebenen31 .
Die Moglichkeit, Klassi zierungen im Lexikon auszudrucken, fuhrt zu mehr Konsistenz
quer durch eine Klasse. Samtliche (lexikalischen) Instanzen einer Klasse werden analog
beschrieben: es wird sichergestellt, da die in den jeweiligen Klassende nitionen vorgegebenen Beschreibungsmittel auch bei der Beschreibung aller einzelnen Instanzen benutzt
werden32 .
Die Klassenhierarchien sollen im folgenden Sinne abstrakt sein: Sie beschreiben und
strukturieren Typen von semantischen oder syntaktischen Beschreibungsbausteinen und
von deren Kombination, d.h. von semantischen und syntaktischen Konstellationen, nicht
einzelne Lesarten einzelner Lexeme. Neben der Klassenebene gibt es eine Instanzenebene,
auf der einzelne, konkrete Lesartenbeschreibungen angegeben werden. Die Klassen (die
das Potential der lexikalischen Eigenschaften ausdrucken) bilden eine Hierarchie; bei den
Instanzen braucht dies nicht der Fall zu sein: die einzelnen Lesarten einzelner Lexeme
werden nicht zueinander hierarchisch angeordnet. Hierin liegt ein Unterschied zu Acquilex, wo die lexikalisch-semantische Beschreibungsebene als fur die Klassi kation prioritar
angesetzt wird33.
A hnlich wie bei der Beschreibung von linguistischen Zeichen in HPSG wird davon
ausgegangen, da eine lexikalische Instanz Informationen aus den einzelnen ebenenweisen
Klassi zierungen erbt. Bezogen auf je eine Ebene ist also ein lexikalisches Zeichen jeweils
Instanz einer bestimmten Klasse. Auf diese Weise wird sichergestellt, da die ebenenweise
31 Dieser klassi katorische Ansatz entspricht relativ genau dem Vorgehen der Lexikographen bei der
Erstellung von Worterbucheintragen auf der Grundlage von Corpusmaterial; auerdem ist ein solcher
Ansatz bei der Estellung von multifunktionalen Worterbuchern nutzlich, sowie bei der Erarbeitung gemeinsamer Klassi kationen fur parallele Worterbuch-Fragmente fur verschiedene Sprachen; vgl. auch
die Diskussion oben Abschnitt 2.1.1.2, Seite 23. Der Lexikograph wird gezwungen, die De nition der
jeweiligen Klassen eindeutig festzulegen und bei der Zuordnung einzelner lexikalischer Einheiten zu
einzelnen Klassen wiederzuverwenden. Interessant ist, da dieses Konzept, das ja ohne weiteres einzelsprachspezi sche Spezialisierungen toleriert, wo diese notig sind, ohne Schwierigkeiten (und mit
einem signi kanten Anteil an parallelen Spezi kationen) fur die Modellierung von Fragmenten unterschiedlicher germanischer und romanischer Sprachen (EN, FR, IT, NL, DK) eingesetzt werden
konnte.
32 Auf das Problem der fehlenden Konsistenz quer durch Klassen von Worterbuchartikeln wurde oben,
in Punkt 1 von Abschnitt 2.1.2.5, Seite 34, anhand der Analyse bestehender gedruckter Worterbucher schon hingewiesen. Deskriptive Konsistenz wird auch in Punkt 6, der Anforderungsde nition
in Abschnitt 2.3, Seite 68 gefordert.
Die Konsistenz syntaktischer Beschreibungen ist in der Regel etwas einfacher zu kontrollieren als
diejenige von lexikalisch-semantischen Beschreibungen. Vgl. dazu die Forderungen von [Verkuyl 1994].
Es wurde in DELIS versucht, auch fur lexikalisch-semantische Klassen eine Konsistenzkontrolle durch
die De nition von klassen-konstituierenden Beschreibungen von Rollenkonstellationen festzulegen.
33 Eine Hierarchisierung verschiedener Lesarten erfolgt in den Acquilex-Worterbuchern danach, welche
lexikalisch-semantischen Gemeinsamkeiten bzw. Unterschiede zwischen zwei Lesarten vorliegen. Dort
wo die Typenhierarchie eine solche hierarchische Klassi zierung nicht zulat, werden zusatzlich Sorten
(psort) verwendet, die eine nicht-monotone Hierarchie bilden konnen.
Fur die psort-Hierarchie gibt es keinen automatischen Klassi kator; sie steht neben dem Typenverband der linguistischen Objekte, als separate Strukturierung der Lesarten. Dieses Vorgehen macht
die Sortenhierarchie zum primaren Kriterium der Anordung von Lesarten; das Lexikon erhalt damit eine anwendungsorientierte Ausrichtung: es handelt sich um ein semasiologisches Worterbuch.
Die Strukturierung des Acquilex-Lexikons nimmt u.U. bestimmte Anwendungen vorweg und ist damit fur eine multifunktionale Anwendung nicht besonders geeignet. In DELIS wurde im Hinblick auf
die Verwendbarkeit der lexikalischen Beschreibungen in verschiedenen Anwendungskontexten auf eine
Klassi zierung der einzelnen Lesarten verzichtet.

Information in der Beschreibung der einzelnen lexikalischen Zeichen \zusammen iet"; in


Abbildung 3.13 wird dies schematisch dargestellt.

Morphosyn.
Hierarchie
Phonologie

< "..." >

Morphosyntax
Syntax
Semantik
Lex. Zeichen

Syntakt.

Hierarchie

Semant.
Hierarchie

Abbildung 3.13: Informationen im Worterbucheintrag einzelner Lexeme: Verweise auf


Klassen von den verschiedenen Beschreibungsebenen

3.2.3 Modularitat und Interaktion der Module

Vereinfacht ausgedruckt, enthalt die hier vorgeschlagene Architektur drei separate aber
miteinander verbundene Komponenten:


De nition der Beschreibungsmittel: die Spezi kation der Bausteine der Beschreibung
(Vokabular, z.B. Inventar der semantischen Rollen, der grammatischen Funktionen,
der Typen phrasenstruktureller Konstrukte);
Klassen-De nition: die Spezi kation der wohlgeformten Kombinationen der Beschreibungsmittel; diese De nitionen sind jeweils ebenenspezi sch; sie stellen Wohlgeformtheitsbedingungen fur Teilbeschreibungen der einzelnen im jeweiligen Lexikon
beschriebenen linguistischen Ebenen dar (z.B. De nition von Rollenkonstellationen
als lexikalisch-semantische Klassen, von syntaktischen Subkategorisierungsklassen,
etc.)34 ;

34 Ein spezieller Typ von Wohlgeformtheitsbedingungen fehlt derzeit noch (in der Modellierung von
DELIS): Es gibt keine \Meta-Spezi kation", die die Wohlgeformtheit der vorhandenen oder eventuell
vom Lexikographen neu hinzude nierten Rollenkombinationen uberprufen hilft, so da der Lexikograph momentan noch entweder gar keine oder beliebige neue Rollenkombinationen einfuhren kann.
Es fehlt also eine \Meta-De nition" auf der semantischen Ebene, die vergleichbar ware mit den in der
syntaktischen Beschreibungstheorie von LFG vorhandenen allgemeinen Constraints von \Completeness" und \Coherence".

Instanzen-De nition: fur jede einzelne Lesart die Spezi kation der Zugehorigkeit zu
den einzelnen Klassen.

Die Beschreibungsmittel der einzelnen Ebenen werden jeweils separat de niert.


Die Kombinationsmoglichkeiten zwischen (in der Regel je zwei) ebenenspezi schen
Teilbeschreibungen werden durch separate relationale Constraints (Abbildungen) modelliert. In solchen Abbildungsregeln wird zum Beispiel ausgesagt, da die im Rahmen von
Frame Semantics verwendete Rolle experiencer auf ein Subjekt abgebildet werden kann.
Eine naturlichsprachliche Paraphrase des Abbildungsstatements konnte wie folgt lauten:
\Liegt in einer lexikalisch-semantischen Teilbeschreibung die Rolle experiencer vor, so
mu in der dazugehorigen Teilbeschreibung auf der Ebene der grammatischen Funktionen
die Funktion Subjekt vorliegen.". Die Relationen geben das Abbildungspotential, d.h. die
maximale Menge moglicher Abbildungen an.
Der Eintrag einer einzelnen Lesart in einem DELIS-Worterbuch ist wohlde niert, wenn
er auf genau eine lexikalisch-semantische Rollenkon guration verweist (d.h. in der TFSKodierung von dem entsprechenden Typ erbt), und wenn er daruberhinaus auf genau eine
syntaktische Subkategorisierungsklasse oder eine Menge als Varianten miteinander verbundener Subkategorisierungsklassen verweist (von den betre enden Typen erbt). Gleichzeitig mu die Kombination der syntaktischen und semantischen Klassen das Produkt der
relationalen Constraints fur die Abbildungen zwischen jeweils ebenenspezi schen Konstrukten erfullen.
Auf diese Weise werden die Beschreibungen einzelner lexikalischer Zeichen sowohl \horizontal" (durch die Zugehorigkeit zu Typen, die die Konstellationen von ebenenspezi schen Beschreibungsmitteln de nieren) als auch \vertikal" (durch De nitionen der Interaktion zwischen Konstrukten der verschiedenen Ebenen) festgelegt. Die Abbildung in
3.14 symbolisiert dies: die Abbildungen zwischen je zwei Ebenen sind durch schattierte
Kastchen hinterlegt. Die lexikalisch-semantischen, syntaktischen und phrasenstrukturellen
Klassi zierungen sind horizontal als Teil-Listen angegeben.
Beispiele aus DELIS fur diese Abbildungen werden unten in Abschnitt 4.4 gegeben.
Mit dem hier skizzierten Modellierungsverfahren konnen sowohl die Komponenten der
lexikalischen Spezi kation, als auch die Abbildungen zwischen den ebenenspezi schen
Beschreibungen modular35 gehalten werden.
ROLLEN:

< [

FE: ...

FE: ...

FE: ...

]>

GRAMM. FUNKTIONEN:

< [

GF: ...

GF: ...

GF: ...

] >

PHRASENSTR.-TYPEN:

< [

PT: ...

PT: ...

PT: ...

] >

Abbildung 3.14: Schematische Darstellung der relationalen Modellierung von Zusammenhangen zwischen Teilbeschreibungen von verschiedenen Ebenen
35 Diese Modularisierung entspricht der Forderung, die in Punkt 5, in der Anforderungsde nition in
Abschnitt 2.3, Seite 66 vorgetragen wurde.

3.2.4 Dokumentation der lexikalischen Beschreibungen


Die TFS-Kodierungen von vollstandig auskompilierten lexikalischen Eintragen sind trotz
der angestrebten Modularitat teilweise relativ komplex. Insbesondere kann es fur einen Lexikographen wahrend des Worterbuchaufbaus mitunter schwierig sein, ebenenweise Teilbeschreibungen zusammenzubringen, um sich ein Bild von der bereits vorhandenen Gesamtbeschreibung eines Lexems zu machen36 .
Aus diesem Grund, sowie im Hinblick auf die angestrebte Multifunktionalitat mussen
lexikalische Spezi kationen gut dokumentiert sein37 .
 Die Verwendung von Beispielsatzen ist eine Moglichkeit, Eintrage von lexikalischen
Instanzen zu dokumentieren. Die De nition der lexikalischen Instanzen enthalt deswegen ein Attribut, unter dem Beispielsatze eingesetzt werden konnen. Im Fall von
DELIS wird diese Art Dokumentation dadurch erreicht, da Beispiele aus Textcorpora entweder mithilfe des DELIS Search Condition Generator direkt aus einem syntaktisch annotierten Corpus abgerufen werden, oder da der Lexikograph
manuell Beispielsatze fur die einzelnen Verwendungen ausgewahlt und ins Lexikon
aufnimmt38.
 Die textuelle Dokumentation von Klassen kann dadurch bereitgestellt werden, da
jede Klassende nition ein spezielles Attribut erhalt, das nicht an Subklassen vererbt
wird und textuelle Dokumentation enthalten kann39.
 Die Tatsache, da Teilbeschreibungen der verschiedenen Ebenen durch Relationen
miteinander verbunden sind, erlaubt es, die \abstrakteren" Ebenen (z.B. lexikalischsemantische Rollenkon gurationen) uber Abbildungen mit den weniger abstrakten
Ebenen zu verbinden (grammatische Funktionen und morphosyntaktische Beschreibungen der Subkategorisierung, etwa in der Form von \part-of-Speech-Shapes"). Damit wird ein Stuck weit die Bindung der linguistischen Klassi kationen an \corpusbeobachtbare" Fakten realisiert, welche oben in Abschnitt 2.1.2.4 diskutiert und in
Abbildung 2.6 (Seite 32) illustriert worden ist.
Wahrend in der Linguistik und Lexikographie wenigstens bis zu einem gewissen Grad
eine Art \Grundkonsensus" uber die \ubliche Interpretation" (morpho-)syntaktischer Beschreibungen besteht, ist die Interpretation von (lexikalisch-)semantischen Beschreibungen kontroverser und in noch starkerem Mae von den jeweiligen Grundprinzipien einer
36 Das TFS-System kann voll spezi zierte Lexikoneintrage bei der Abfrage ausgeben. Die Zugehorigkeit
einer einzelnen Lesart zu einer bestimmten semantischen oder syntaktischen Klasse ist in den jeweiligen \partial order"-Graphen ablesbar (Hierarchiebeziehungen); dies ist problemlos, wenn fur eine
bestimmte Klasse alle Lesarten gezeigt werden sollen, die von der Klasse erben; ein analoges Verfahren ist jedoch nicht ohne weiteres von einer gegebenen Lesartende nition aus \ruckwarts" verfugbar:
man kann beim momentanen Stand des TFS-Systems und seiner Benutzerober ache nicht angeben,
welches die fur einen Typ relevanten Supertypen sind.
37 In Punkt 2 der Anforderungsde niton in Abschnitt 2.3, Seite 66 wurde darauf hingewiesen, da die
Wiederverwendbarkeit lexikalischer Beschreibungen stark davon abhangt, wie detailliert die Beschreibungsintuition des Lexikographen dokumentiert und damit reinterpretierbar gemacht ist.
38 Die Implementierung des DELIS Search Condition Generator wurde von M. Emele und B. Schulze,
IMS-CL Stuttgart, durchgefuhrt. Zur De nition des Werkzeugs, vgl. [Linden 1994] und [Heid 1995c].
39 Ein solches Vorgehen ist in der hier benutzten Version des TFS-Systems angelegt, aber nicht
vollstandig implementiert. Bei [Van der Laan 1996] wird das hier vorgeschlagene \Dokumentationsattribut" in das Metaschema des Reprasentationssystems aufgenommen, und sein spezi scher Status
(keine Vererbung!) wird dort de niert. Dies entspricht den Vorschlagen aus [Emele/Heid 1993].

gebenenen linguistischen Theorie abhangig. Dies gilt naturlich auch fur die hier exemplarisch zugrundegelegte Theorie, Frame Semantics (vgl. die De nitionsversuche und Tests
in Abschnitt 4.2.1). Wenn aber, wie hier vorgeschlagen, der Versuch unternomen wird,
die lexikalisch-semantische Beschreibung mit den anderen Ebenen explizit zu verknupfen,
wird sichergestellt, da die semantischen Angaben (insbesondere die Rollenkon gurationen) auch auerhalb von Frame Semantics wenigstens in ihrer grammatischen Realisierung
reinterpretiert werden konnen. Dies bedeutet wiederum, da die abstrakten lexikalisch semantischen Beschreibungen auf an der Ober ache, d.h. im Corpustext, beobachtbare und
identi zierbare Phanomene zuruckgefuhrt und daher leichter reproduzierbar dokumentiert werden konnen. Sehr vereinfacht ist dieses Prinzip in Abbildung 3.15 dargestellt:
die einzelnen Ebenen sind miteinander verbunden, von der Ebene der Morphosyntax aus
(phrasenstrukturelle Beschreibung, \low level grammar"!) besteht eine Moglichkeit zur
(halbautomatischen) U berprufung im Corpus40 .
SEM:

lex. sem.
...

SYN:

f-str.
...

MARKUP

MO/SY:

c-str.
...

Abbildung 3.15: Dokumentation von lexikalischen Beschreibungen durch Abbildungen


zwischen den Beschreibungsebenen: U berblicksschema vgl. 2.6
In Abbildung 3.16 sind die fur die Dokumentation relevanten Querverweise im DELISWorterbuch-Modell schematisch angegeben.

3.2.5 Zugri sneutralitat

Eine besonders wichtige Eigenschaft der vorgeschlagenen Worterbucharchitektur, die von


TFS unterstutzt wird, ist die Zugri sneutralitat der Worterbucher (vgl. auch Abschnitt
3.1.4.3). Oben wurde bereits angedeutet, da die einzelnen ebenenspezi schen Module, aus denen eine lexikalische Beschreibung besteht, gleichberechtigt nebeneinander stehen. Dies ist unten, in Abbildung 3.17, anhand der Komponenten von DELIS-Worterbuchern (semantischen und syntaktischen Hierarchien, sowie inharenten semantischen
40 Naturlich nehmen einerseits Spezi zitat und Selektivitat der Beschreibungen von der Semantik zur
Morphosyntax ab und kommen andererseits Variationsphanomene auf derselben Strecke hinzu, soda
die Abbildung in der hier dargestellte Form nur relativ vage Korrelationen produziert. Im DELIS
Search Condition Generator wurde dieses Problem durch den Einbezug von spezi schen lexikalischen
Angaben zu Funktionswortern, sowie zum Teil durch Aufsetzen auf syntaktisch analysierten TextCorpora behoben; vgl. Abschnitt 5.2.5.

sem. classes
Test sequences

sem

Keyword

syn

CORPUS SENTENCE

mosy
expl "

"

synt. cl.

entry

Documentation

grammar
mo/sy. cl.

Abbildung 3.16: Dokumentation lexikalischer Beschreibungen: Schema der Zusammenhange zwischen Corpus, Lexikon und textueller Dokumentation (vgl. auch Abbildung
3.13)
Merkmalen und Eintragen der Lemmalisten), schematisch dargestellt. Keines der Module
(und entsprechend keine der Beschreibungsebenen, die in den Modulen kodiert werden)
wird als primar oder in irgendeiner Weise a priori fur die Makrostruktur des Lexikons
organisations-relevant ausgezeichnet. Jedes der Module, bzw. jede Teilbeschreibung oder
Kombination von Teilbeschreibungen kann als Kriterium fur die makrostrukturelle Organisation des Worterbuchinhalts verwendet werden.
An dieser Stelle bietet sich ein Vergleich mit traditionellen Worterbuchern an. Was
Wiegand die Zugri sstruktur des Worterbuchs nennt, steht hier zur Debatte:





Im semasiologischen Worterbuch, beispielsweise einem allgemeinen De nitionsworterbuch, erfolgt der Zugri auf lexikalische Information uber das Lemmazeichen;
wenn verschiedene Lesarten des Lemmas beschrieben werden, erfolgen die Di erenzierung und der Zugri uber die Bedeutungsbeschreibung bzw. Lesart-Identi kation.
Es ist z.B. sehr schwierig, in einem solchen Worterbuch nahe Synonyme zu suchen,
wenn nicht explizit Synonym-Verweise angegeben sind.
In einem Konstruktionsworterbuch (wie z.B. [Busse/Dubost 83]) erfolgt der Zugri
uber das Lemmazeichen, die Di erenzierung uber Subkategorisierungsmuster.
In einem onomasiologischen Worterbuch schlielich erfolgt der Zugri nicht uber das
Lemmazeichen, sondern uber eine thesaurus-artige Klassi zierung in Sachgruppen
oder uber semantische Klassen (z.B. in WordNet).

In jedem dieser einzelnen Falle dient eine bestimmte Art von partieller Information als

SEM. HIER.

..
INHARENTE MERKM.

SYN. HIER.

LEMMALISTE

vis aud olf gus tac

Abbildung 3.17: Information von verschiedenen Beschreibungsebenen iet in der Beschreibung einer Lesart zusammen
\primarer Zugri sschlussel". In der Regel ist dies wegen des konventionellen Charakters
des Alphabets das Lemmazeichen. Sekundare Zugri sschlussel sind je nach Worterbuchtyp
De nitionen, Konstruktionen usw.
Im hier verfolgten constraint-basierten Ansatz wird darauf verzichtet, eine Teilinformation a priori als Zugri sschlussel auszuzeichnen. Wie auch alle anderen constraintlogikbasierten Formalismen, kann TFS mit beliebig unterspezi zierten Featurestrukturen abgefragt werden41 . Die Worterbucheintrage sind auerdem so gestaltet, da keine Teilbeschreibungen unterschiedlicher Ebenen sich gegenseitig bedingen42 .
Wegen dieser Architekturentscheidungen konnen die Moglichkeiten der Ad-hoc-Abfrage
vollstandig ausgenutzt werden. Entsprechend kann \semasiologisch" angefragt werden, indem nach Verbindungen aus Lemmazeichen und bestimmten semantischen Beschreibungen gefragt wird, jedoch auch \onomasiologisch", indem in der Anfrage nur bestimmte
semantische Rollenkonstellationen angegeben werden, jedoch keine Lemmata. Details zu
diesen Anwendungen sind unten in Abschnitt 5.2 zusammengestellt.
Hier ist darauf hinzuweisen, da die Zugri sneutralitat der Worterbucher eine wichtige Bedingung fur Multifunktionalitat ist: was [Martin/Al 1988] die \benutzerunabhangige Datenbasis" nennen, wird hier durch die TFS-Modellierung reprasentiert; die TFSStatements sind hinsichtlich der Anfrageform \neutral"43. Aus ein und derselben Datenbasis konnen Beschreibungen nach ganz verschiedenen Strukturierungsprinzipien extrahiert
werden. Dieser Ansatz lat sich mit dem Konzept der \Sichten" auf eine Datensammlung
vergleichen, das in der Diskussion um Datenbanken als Reprasentationshilfsmittel fur Lexika eine wichtige Rolle spielt. Da in TFS Datenreprasentationssprache und Anfragesprache identisch sind, ist die Realisierung unterschiedlicher \Sichten" durch unterschiedliche
Anfragen trivial.
41 Unten in Abschnitt 5.1, werden verschiedene Anwendungsbeispiele fur diese als \Ad-hoc-Abfrage"
bezeichnete Verfahrensweise angegeben. Vgl. auch die Erwahnung oben in Abschnitt 3.1.4.2.
42 Mindestens wird diese Lokalitat weitestgehend durchgehalten; einzelne, nicht-kritische Ausnahmen
gibt es bei den Zusammenhangen zwischen grammatischen Funktionen und Phrasenstrukturtypen.
43 Die ubliche Anordnung der Attribute und Werte im Ausgabeformat der TFS-Eintrage ist allerdings
schon von semasiologischen Worterbucheintragen beein ut. Wenn aber nicht einfach eine ConstraintMenge als Evaluationsresultat ausgeben werden soll (z.B. \[A:x]&[B:y]&[C:[D:z]]"), mu irgendein Ausgabeformat gewahlt werden. Das hier gewahlte Format ist aber bewut nicht fur die TFSDatenbasis selbst strukturierungsrelevant.

Anforderungen
Multifunktionalitat

Architekturprinzipien
 Zugri sneutralitat
(3.2.5)
 Modularisierung nach
Beschreibungsebenen
(3.2.2, 3.2.3)
Dokumentation von
 Textuelle Dokumentation
Klassi zierungskriterien (3.2.4)
 Verbindung verschiedener
Beschreibungsebenen
(3.2.3)
Robustheit gegenuber  Modularisierung in Bausteine,
Klassen, Instanzen
A nderungen
(3.2.3)
 Anbindung von Export
an Bausteine
(5.2)
Deskriptive Konsistenz

Gleiche Explizitheit
von Quell- und
Zielsprache

formale Mittel
Constraint-Basiertheit
(3.1.3)

Relationale Constraints
(3.1.3.2)


Relationale Constraints
(fur Export, 3.1.3.2)


Ad-hoc-Abfrage (3.1.4.2, 5.1)


Spezialisierungshierarchien
von Typen
(3.1.2.1, 3.1.2.2)
 Inhaltsmodell als Spezi kation  Appropriateness-Constraints
(2.1.2.6)
(3.1.3.1)
 Konzeption der monolingualen
Worterbucher ohne
kontrastive Zielsetzung
(2.2.2.5)
 parallele Fragmente
(1.1.2)
Hierarchische Modellierung
(3.2.2)





Tabelle 3.1: Vergleich der Worterbucharchitektur mit der Anforderungsde nition aus Abschnitt 2.3

3.2.6 Vergleich der Spezi kation mit der Anforderungsde nition


Abschlieend wird zusammengestellt, welche Anforderungen aus der Anforderungsde nition in Abschnitt 2.3 durch welche der hier in Abschnitt 3.2 beschriebenen Prinzipien
der Worterbucharchitektur erfullt werden, und welche formalen Mittel von TFS fur die
Modellierung eingesetzt werden (vgl. Abschnitt 3.1). Dazu werden die Anforderungen in
der linken Spalte der Tabelle 3.1, Seite 98, angegeben; zu jeder Anforderung wird auf
die relevanten Architekturprinzipien (mittlere Spalte) und, wo relevant, auf die formalen
Hilfsmittel (rechte Spalte) verwiesen. In Klammern nden sich Verweise auf die jeweils
relevanten Kapitel.

Kapitel 4
Strukturierung einsprachiger
Worterbucher: Verbbeschreibung mit Frame
Semantics

Die oben in Abschnitt 3.2 beschriebenen Prinzipien der Worterbucharchitektur sind in monolingualen Worterbuchfragmenten angewendet worden, welche im Rahmen des DELISProjekts entwickelt worden sind. Diese Worterbuchfragmente beschreiben Verben der
sinnlichen Wahrnehmung, im Englischen, Franzosischen, Italienischen und Niederlandischen1 . Es handelt sich um parallele Worterbuchfragmente: Nur fur einzelsprachspezi sche
Phanomene werden neue Beschreibungsmittel eingefuhrt. Auerdem wurde ein Worterbuchfragment fur Kommunikationsverben des Englischen und Italienischen erstellt. Die
Modellierung des italienischen Fragments wird in Abschnitt 4.5 kurz diskutiert, weil sie
deutlich zeigt, da sich der anhand der Beschreibung von Wahnehmungsverben entwickelte und erstmals getestete Ansatz sehr gut auf andere Gegenstandsbereiche ubertragen
lat.
In diesem Kapitel werden die verwendeten Beschreibungsmittel eingefuhrt und die
TFS-Kodierung dokumentiert. Das Ziel dieser Dokumentation ist es, Beispiele fur die
Anwendung von TFS fur die lexikalische Kodierung zu zeigen. Gleichzeitig wird eine formale Modellierung von Frame Semantics vorgestellt; soweit sich sehen lat, wurde dieser
Beschreibungsansatz hier zum ersten Mal als Grundlage eines maschinenverarbeitbaren
Lexikons herangezogen. Es wird in diesem Kapitel jedoch auf eine detaillierte Diskussion anderer Beschreibungsansatze und auf eine Motivation fur die Benutzung von Frame
Semantics verzichtet: eine solche Diskussion wurde den Rahmen sprengen, da es hier das
Ziel ist, im Rahmen der generelleren Diskussion uber multifunktionale Worterbucher ein
konkretes Beispiel zu geben, nicht aber, eine Diskussion allgemeiner Probleme der Beschreibung von Wahrnehmungs- bzw. Kommunikationsverben zu geben2 .
Die Dokumentation ist nach linguistischen Beschreibungsebenen in Abschnitte eingeteilt. In Abschnitt 4.1 werden zunachst die Bausteine der Lexikoneintrage diskutiert.

4.1 Bausteine der DELIS-Worterbucheintrage


Worterbucheintrage enthalten in der auskompilierten Form mindestens drei Typen von
Informations-\Paketen", die jeweils unter Attributen der obersten Ebene angegeben sind:
 Eine \Frame Element Group" (Attribut FEG): eine Liste von Attribut-Wert-Strukturen, die ungefahr einer Subkategorisierungsliste einer formalen Grammatik entspricht (vgl. aber unten Fillmore's Diskussion der Frame Element Group in Abschnitt 4.2, Seite 101 und Abschnitt 4.3.4 fur Details).
1 Im DELIS-Projekt wurde auerdem das Danische behandelt, jedoch wurde die TFS-Modellierung der
Beschreibungen des danischen Fragments hier nicht berucksichtigt.
2 Vgl. fur eine solche Diskussion, sowie einen U berblick uber deskriptiver Literatur, [Spanu et al. 1993].

Eine Lemmaangabe (Attribut LEMMA:), welche als Wert eine Wortform hat, die das
Lemmazeichen angibt.
 Eine Beschreibung inharenter semantischer Merkmale (unter dem Attribut EVENT:),
welche Attribut-Wert-Strukturen als Wert haben kann3 .
Die Frame Element Group fat fur jedes \Frame Element" (d.h. vereinfacht: \Argument")
semantische und syntaktische Information zusammen: es wird die jeweilige Rolle, grammatische Funktion und phrasenstrukturelle Realisierung angegeben4 . Die Grundstruktur
der DELIS-Worterbucheintrage ist in der Abbildung 4.1 schematisch skizziert.


LEMMA:

FEG:

..
Inharente
Merkmale

"..."

ROLLEN:

[ . . .]

ROLLEN:

[ . . .]

GRAMM. FUNKT.:

[ . . .]

GRAMM. FUNKT.:

[ . . .]

PHRASENSTR. TYPEN:

[ . . .]

PHRASENSTR. TYPEN:

[ . . .]

...

Abbildung 4.1: Schema eines Verb-Eintrags im DELIS-Worterbuch


Die Komponenten der Frame Element Group beschreiben die Verbargumente hinsichtlich
ihrer lexikalisch-semantischen und funktional- bzw. kategorial-syntaktischen Eigenschaften. Tabelle 4.1 enthalt die relevante Terminologie, fur die Bausteine und ihre Kombinationsklassen.
Wenn im folgenden von \Rollenkonstellationen" oder \Konstellationen von subkategorisierten grammatischen Funktionen" bzw. \Allgemeinen Subkategorisierungsklassen"
gesprochen wird, so sind Listen gemeint, deren Elemente Attribut-Wert-Paare mit einem
einzelnen Attribut, und zwar demjenigen fur die \Rolle" (FE: fur \frame element") bzw.
dem fur die Grammatische Funktion (GF:) sind. Beispiele fur Rollenkonstellationen werden
unten in Tabelle 4.5, Seite 109 gegeben. Konstellationen von phrasenstrukturellen Konstrukten (Attribut PT:, fur \Phrase Structure Type") konnen in entsprechender Weise
dargestellt werden5 .
3 Beschreibungen inharenter Eigenschaften konnen in der Form von Merkmalen gegeben werden (vgl.
oben in Abschnitt 5.3.2 die Beschreibung der Kohyponyme von EN see, wie sie von [Atkins 1994]
vorgeschlagen und im Zusammenhang mit DELIS in TFS modelliert worden ist).
4 Damit wird das strati kationelle Modell implementiert, welches in Abschnitt 3.2.2 spezi ziert und
in den Abbildungen 3.13, Seite 92 und 3.17, Seite 97 schematisch dargestellt wurde. Dieser Ansatz
entspricht der Anforderung, Worterbucher ebenenweise modular zu halten, die in Punkt 5b der Anforderungsde nition in Abschnitt 2.3, Seite 67 formuliert wurde.
5 Es ist beispielsweise in den meisten Valenzworterbuchern ublich, da nur phrasenstrukturelle Konstrukte angegeben werden, keine grammatischen Funktionen. Ein Beispiel ist [Busse/Dubost 1983] fur
das Franzosische. In DELIS werden jedoch grammatische Funktionen und phrasenstrukturelle Konstrukte zusammengenommen, um hinreichend trennscharfe Subkategorisierungsklassen zu erhalten.

Konstrukte !
Bausteine
Konstellationen
Beschreibungsebenen #
(Klassen)
Lexikalische Semantik
Rollen
Rollenkonstellationen
(Frame Semantics)
Funktionale
Grammatische
Allgemeine
Syntax
Funktionen Subkategorisierungsklassen
PhrasenstrukturSyntaktische
Spezi sche
Syntax
Kategorien Subkategorisierungsklassen
Tabelle 4.1: Bausteine der Frame Element Group und Klassen von Kombinationen solcher
Bausteine

4.2 Lexikalisch-semantische Beschreibung auf der Grundlage von Frame


Semantics

Die lexikalisch-semantische Beschreibung von Verben in DELIS beruht auf den Prinzipien
von Frame Semantics (vgl. [Fillmore 1993a], [Fillmore 1993b]).
Frame Semantics beschreibt zunachst \Szenarien" oder Situationen. Auf der Grundlage einer Beschreibung von Szenarien (und ggf. deren Subtypen) werden die linguistischen
Mittel beschrieben, die einzelne Sprachen bereitstellen, um auf bestimmte Szenarien und
deren Beteiligte zu referieren. Fur den Bereich der Wahrnehmung geht es darum, typische
Wahrnehmungssituationen und die \Situations-Beteiligten" zu identi zieren, die charakteristischerweise in einem Wahrnehmungsszenarium auftreten. Verben konnen Situationen
denotieren; die \Situations-Beteiligten" werden dann einerseits durch subkategorisierte
Komplemente, andererseits durch nicht-obligatorische adjunkt-artige Gruppen realisiert6.
Die Grundbegri e der Frame Semantics-Beschreibung von Verben (Situation (Frame)
und \Situations-Beteiligter" (Frame Element)), sowie der Zusammenhang mit Subkategorisierungsbeschreibungen und thematischen Rollen sind von Fillmore (1995) in folgender
Weise dargestellt worden7 :
\One of the basic tasks of Frame Semantics is the schematic description of the
situation types associated with the use of particular predicating words (here
we concentrate on verbs) by discovering and labeling elements of such situations (the frame elements) in so far as these can be re ected in the linguistic
structures that are built around the word being analyzed.
The semantic frame associated with a particular verb has something in common with the notion subcategorization frame except that it includes the subject, and it has something in common with such notions as theta grid and
argument structure, with the important exception that the list of frame ele6 Die Trennung zwischen Komplementen und Adjunkten ist notorisch problematisch. Beispiele und eine
detaillierte Diskussion dieser Abgrenzungsprobleme gibt z.B. [Somers 1987]. Hier soll nicht auf diese
Problematik eingegangen werden. Wichtig ist fur die Worterbucharchitektur und ihre Anwendung
im Falle der DELIS-Worterbucher, da die \Frame Element Group" im Prinzip Frame Elements
enthalten kann, die als Adjunkte realisiert werden konnen.
7 U bernommen aus der Darstellung der Beschreibungsmittel von Frame Semantics in [Heid (Coord.)
1995].

ments includes not only what gets represented as the arguments (narrowly
conceived) of a verb, but also the frame-speci c adjuncts.
Thus, the verb \write", as opposed to the verb \enjoy", takes not only a subject
and an object, but also such optional frame-elaborating phrases as \with red
ink" or \in French" or \on expensive paper". The concept of writing has to
do with leaving traces on a surface, these traces representing expressions in
some language. Thus, in the sentence \I wrote the poem in French with a
ballpoint pen on expensive paper" we nd information about the writer, the
text, the language, the surface, and the means of providing the traces, and
we can t all of that information into a frame-speci c scene of the \writing"
type. Adjuncts of the sort \in Cairo" and \in 1930" would not be thought of
as frame-speci c, since place and time descriptions can occur in almost any
situation-description."
Bei der Beschreibung der typischen Wahrnehmungs-Situation (\perception frame") wird
von zwei zentralen \Situations-Beteiligten" ausgegangen; diese beiden Frame Elements
werden mit den Rollenbezeichnungen Experiencer und Percept versehen.
Die Frame Elements mit den Rollenbezeichnungen Experiencer und Percept konnen,
in einer sehr allgemeinen ersten De nition, wie folgt umschrieben werden:
 Experiencer: Das Individuum, welches etwas wahrnimmt;
 Percept: Die Entitat oder der Sachverhalt, welchen der Experiencer wahrnimmt,
oder auf welchen der Experiencer seine Aufmerksamkeit richtet.
Im Laufe der Arbeiten zu DELIS wurde deutlich, da in vielen Fallen der Perception Frame mit einem anderen Frame interagiert, der Beurteilungs-Situationen ausdruckt (\Judgement Frame"). Die Kombination der beiden Frames dient zur Beschreibung von Situationen, in denen neben den Frame Elements mit den Rollen Experiencer und Percept ein
weiteres Frame Element vorkommt, mit der Rolle judgement8 . Typische Beispiel-Verben,
die einen solchen Sachverhalt benennen, sind DE aussehen, eine Lesart von EN sound,
look usw. (z.B. This sounds awful, this looks like a pen).

4.2.1 Semantische Rollen fur das Wahrnehmungsszenarium

Fur die einzelnen Frame Elements wird in DELIS eine Beschreibung vorgeschlagen, in
welcher fur die Rollen Experiencer und Percept jeweils Subtypen (Subrollen) angesetzt
werden. Fur jede einzelne Subrolle werden im folgenden Spezi ka und, wo dies moglich
ist, Tests angegeben9 .
8 Dieses Frame Element kann allgemein (auerhalb der Wahrnehmungsdomane) als eine Pradikation
uber eine Entitat oder einen Sachverhalt de niert werden, zum Ausdruck einer Reaktion eines Individuums auf die Entitat oder auf den Sachverhalt. Diese Reaktion ist beurteilender (quali zierender)
Natur. Sie kann sich auf intersubjektiv uberprufbare Eigenschaften (judgement-veridical), auf eine
subjektive Beurteilung entlang der Gut-Schlecht-Skala (judgement-evaluative) oder auf Inferenzen
beziehen, welche das Individuum auf Grund des vom zu beurteilenden Gegenstand oder Sachverhalt
ausgehenden Reizes zieht (judgement-inferential).
9 Teilweise sind die Subrollen durch spezielles syntaktisches Verhalten identi zierbar, teilweise sind die
Subklassi zierungen semantischer Natur. Die detaillierte Dokumentation, sowohl durch Tests und De nitionen, als auch durch die explizite Beschreibung des Zusammenhangs zwischen den verschiedenen

4.2.1.1 Experiencer
Die Subtypen von Experiencer sind Experiencer-intentional (experiencer-int) und
Experiencer-non-intentional (experiencer-nonint)10 .
Die Rollen-Unterscheidung bezieht sich darauf, da die wahrnehmende Person11 entweder mit oder ohne eigenes absichtliches Handeln an dem Wahrnehmungsereignis teilnimmt. Die Wahrnehmung kann erfolgen, ohne da die Person etwas unternommen hat,
um das Wahrnehmungserlebnis herbeizufuhren, oder sie handelt absichtlich so, da das
Wahrnehmungsereignis erfolgen kann. Im ersten Fall (das Wahrnehmungsereignis ndet
ohne absichtliches Handeln der teilnehmenden Person statt) wird das Frame Element als
Experiencer-non-intentional (experiencer-nonint) beschrieben. Anderenfalls wird
das Frame Element als Experiencer-intentional klassi ziert.
Diese Unterscheidung teilt die Domane der Wahrnehmungsereignisse in zwei Teilbereiche, die mit zwei Verbklassen zusammenfallen. Die eine Klasse wird in DELIS die
\perception-Klasse" genannt, die andere die \attention-Klasse". Die beiden Klassen
enthalten in vielen Sprachen, z.B. im Deutschen, Franzosischen, Italienischen und z.T.
im Englischen unterschiedliche Verben. Im Englischen ist die Unterscheidung nur bei den
Wahrnehmungsmodalitaten des Sehens (vis) und des Horens (aud) lexikalisiert, nicht
aber bei den anderen Modalitaten. Beispiele sind in der Tabelle 4.2 zusammengefat,
englische Beispiele fur alle Wahrnehmungsmodalitaten nden sich unten in Tabelle 4.4,
Seite 109.
Klasse !
perception
attention
Modalitat ! visuell auditiv
visuell
auditiv
Sprache #
DE
sehen horen ansehen, anschauen anhoren
EN
see
hear
look/watch
listen (to)
FR
voir entendre
regarder
ecouter
Tabelle 4.2: Perception vs. Attention-Verben von DE, FR, EN im visuellen und auditiven Bereich
Fur die Subtypen von Experiencer gibt es eine Reihe von Tests. Das Vorliegen der
Subrolle Experiencer-intentional kann anhand von Tests festgestellt werden, die auf
eine absichtliche Handlung des Experiencer uberprufen.
Ein Beispiel fur einen solchen Test ist eine Einbettung des zu prufenden Verbs unter einem Kontrollverb, das eine absichtliche Entscheidung ausdruckt, wie z.B. DE entscheiden, beschlieen, EN decide, FR decider, se decider. Ist die Einbettung akzeptierBeschreibungsebenen entspricht dem in Abschnitt 3.2.4 formulierten und in Punkt 2 der Anforderungsde nition in Abschnitt 2.3, Seite 66 geforderten Prinzip moglichst expliziter Dokumentation der
lexikalischen Spezi kationen.
10 Die Unterscheidung wurde oben, in Abschnitt 4.6.2 angesprochen. Sie wird hier im Kontext der Frame
Semantics-Beschreibung dargestellt. Eine leichte Redundanz, die sich hierdurch ergibt, ist leider nicht
zu vermeiden.
11 Als Experiencer kommen naturlich Tiere und Menschen in Frage. Hier wird abkurzend in der Regel von Personen gesprochen. In den Modellierungen wird die Sortenrestriktion \[SORT: animate]"
verwendet; vgl. unten, Abschnitt 4.2.2 und die Hierarchie in Abbildung 4.2.

No Beispielsatz
konsistent?
1 He decided to hear a gun shot
{
2 He decided to hear Prof. Lee
+
(at a congress)
3 He deliberately heard a gun shot
{
4 He deliberately heard Prof. Lee
+

-Subrolle

experiencer

experiencer-n
experiencer-i
experiencer-n
experiencer-i

Tabelle 4.3: Tests fur die Unterscheidung zwischen experiencer-i und experiencer-n
bar und semantisch konsistent, so liegt die Subrolle experiencer-intentional vor. Ist
die Einbettung nicht akzeptierbar, bzw. nicht semantisch konsistent, so liegt die Rolle
experiencer-non-intentional vor; analog funktioniert die Einbettung unter dem Adverb EN deliberately (etc.). Ein Beispiel fur zwei Lesarten von EN hear ist in Tabelle 4.3
angegeben.

4.2.1.2 Percept
Die Rolle percept denotiert das wahrgenommene Objekt oder Ereignis (percept-actual). Auerdem dient die Rollenbezeichnung dazu, Frame Elements zu identi zieren,
die einen Gegenstand oder einen Sachverhalt denotieren, auf welchen der Experiencer
seine Aufmerksamkeit richtet (percept-target), oder die eine Interpretation seitens
des Experiencer denotieren, welche sich aus einem Wahrnehmungsereignis ergibt (percept-interpretation).
Die drei Subtypen der Rolle percept sind wie folgt de niert:
 Percept-Actual: Die Entitat oder der Sachverhalt, welcher wahrgenommen wird.
 Percept-Target: Die Entitat oder der Sachverhalt, auf welchen der Experiencer
seine Aufmerksamkeit richtet, bzw. welchen er wahrnehmen mochte.
 Percept-Interpretation: Eine Schlufolgerung, Hypothese oder Interpretation,
die der Experiencer formuliert, wenn er einen Sachverhalt oder eine Entitat wahrnimmt12.
Fur die Subtypen der percept-Rolle wurden folgende Tests vorgeschlagen.
Die Subrolle percept-interpretation tritt nur auf, wenn gleichzeitig ein (in DELIS
als percept-actual klassi ziertes) Komplement vorliegt, welches die perzeptive \Grundlage" fur die Interpretation liefert. Dies wird durch Beispielsatze wie DE an ihrem Gesichtsausdruck sah ich, da sie traurig war illustriert. In diesem Beispielsatz ist an ihrem
12 Die Subrolle

percept-interpretation denotiert die Hypothese oder Interpretation, welche der


bei der Wahrnehmung eines Percept hat. Diese Subrolle stellt die ( ieende) Grenze
zwischen visueller Wahrnehmung und mentaler Wahrnehmung dar. Viele visuellen Wahrnehmungsverben (insbesondere im Franzosischen) konnen dazu benutzt werden, in einer \ubertragenen" Bedeutung
eine mentale Wahrnehmung bzw. eine Schlufolgerung zu denotieren.
Experiencer

Gesichtsausdruck als percept-actual klassi ziert, wahrend da sie traurig war als percept-interpretation beschrieben wird13 .
Ein moglicher Test fur die percept-target-Rolle beruht darauf, da das Objekt, auf
das sich die Aufmerksamkeit des experiencer richtet und welches als percept-target
klassi ziert wird, nicht notwendigerweise in der durch den Satz beschriebenen Situation vorhanden sein mu. Folglich konnen Satze mit als percept-target klassi zierbaren
percepts akzeptierbare und konsistente Interpretationen erhalten, auch wenn die aktuelle
Existenz des percepts negiert wird. In dem Satz EN He looked for a bottle of wine, ist
es moglich, einen Nebensatz but he couldn't see one hinzuzusetzen. Die Phrase a bottle
of wine in diesem Satz wird als percept-target analysiert. Dagegen ist der Satz EN *He
looked at a bottle of wine, but he couldn't see one. semantisch inkonsistent (a bottle of
wine wird hier als percept-actual analysiert).

4.2.1.3 Judgement

Die judgement-Rolle hat drei Subtypen, je nach Art der Beurteilung14. Diese drei Subtypen sind wie folgt de niert:
 Judgement-veridical: Die Beurteilung betri t eine intersubjektiv reproduzierbare (nicht notwendig objektive) Eigenschaft des beurteilten percepts. Solche Beurteilungen konnen durch quali kative Adjektive ausgedruckt werden (dieser Saft
schmeckt bitter; dieses Gas riecht stechend; dieser Sto fuhlt sich feucht an), oder
durch Vergleichsphrasen (Prapositionalphrasen oder Vergleichssatze: Das schmeckt
wie Lebertran; das riecht, wie wenn es vergammelt ware).
 Judgement-evaluative: Die Rolle dient zum Ausdruck einer subjektiven Beurteilung entlang der \gut $ schlecht-Skala". Satze mit der Rolle judgement-evaluative
dienen oft dazu, die personliche Einschatzung des experiencer relativ zu einem
Wahrnehmungsereignis bzw. einer wahrnehmbaren Eigenschaft eines Gegenstands
oder Sachverhalts auszudrucken. Typische Beispiele sind das schmeckt (mir) gut; das
riecht furchterlich; das hort sich schrecklich an; diese Substanz stinkt wie der Teufel
usw. Die evaluativen Adjektive sind nicht fur eine bestimmte Wahrnehmungsmodalitat spezi sch, sondern konnen fur samtliche Modalitaten und auch auerhalb des
Wahrnehmungsbereichs verwendet werden.
 Judgement-inference: Diese Rolle wird zugewiesen, wenn eine personliche Interpretation eines wahrgenommenen Phanomens ausgedruckt wird. Als personliche Interpretation werden alle diejenigen Beurteilungen beschrieben, die nicht auf eine
Wahrnehmung, sondern auf den Ruckschlu verweisen, welchen der experiencer
auf Grund einer Wahrnehmung zieht. Typischerweise kann eine Eigenschaft, die als
judgement-inferential beschrieben wird, nicht ohne menschliches Wissen u
ber
13 Es wurde vorgeschlagen ([Schwenger 1995]), das Vorliegen einer percept-interpretation-Rolle dadurch zu prufen, da einem Satz eine weitere Begrundung, etwa in einem Kausalsatz, hinzugefugt
wird. In den meisten Fallen ergeben sich bei Vorliegen von percept-interpretation inkonsistente
Beschreibungen, wahrend dies in anderen Fallen nicht erfolgt. Allerdings ist dieser Test nicht besonders
trennscharf.
14 Tests werden hier nicht angegeben, einmal weil solche Tests im Kontext der anderen fur den judgingFrame charakteristischen Rollen gesehen werden muten, und zum anderen, weil die Rollen uber
semantische, lexikalische und syntaktische Kriterien leicht identi zierbar sind. Vgl. oben, Seite 102.

die Welt aus einer sinnlichen Wahrnehmung abgeleitet werden. Typische Beispiele
sind sie sieht frohlich aus; sie klingt verargert; die Suppe schmeckt wie wenn jemand
Zucker und Salz verwechselt hatte. Die quali kativen Adjektive, die mit dieser Rolle
beschrieben werden konnen, konnen aus ganz verschiedenen semantischen Feldern
stammen und haben in der Regel nichts mit dem semantischen Feld Wahrnehmung
zu tun. Auch hier sind Vergleichskonstruktionen moglich.
Samtliche Subtypen der judgement-Rolle werden syntaktisch parallel realisiert.

4.2.1.4 TFS-Kodierung der Rollen


In der TFS-Modellierung werden die einzelnen Rollen und ihre Subtypen durch die Typenhierarchie kodiert (vgl. auch Abbildung 4.1 und die Statements 4.1, 4.2, 4.3 und 4.4).
(4.1) role
= experiencer | percept | judgement.
(4.2) experiencer = experiencer-int | experiencer-nonint.
(4.3) percept
= percept-actual | percept-target | percept-interpretation.
(4.4) judgement = judgement-veridical | judgement-evaluative | judgement-inferential.
Die experiencer-Rolle wird durch ein zusatzliches binares Merkmal INTENTION in zwei
Subtypen spezialisiert (4.5).
(4.5)
experiencer-int [INTENTION: +].
experiencer-nonint [INTENTION:

-].

Auerdem wird gefordert, da der durch die experiencer-Rolle beschriebene Situationsbeteiligte als ein Konzept von der Sorte `animate' beschrieben werden kann (4.6).
Sinngema wird fur die Rolle percept-actual gefordert, da entweder eine Entitat oder
ein Sachverhalt vorliegt (4.7); fur percept-interpretation wird die Bedingung aufgestellt, da lediglich ein Sachverhalt vorliegen kann (4.8). Sortale Einschrankungen fur die
judgement-Rolle werden nicht formuliert.
(4.6)
experiencer[SORT: animate].
(4.7)
percept-actual[SORT: entity | proposition].
(4.8)
percept-interpretation[SORT: proposition].
Die Rolle percept-actual ist auerdem anhand zusatzlicher Sortenrestriktionen in weitere Subrollen aufgespalten. Diese wurden oben in Abschnitt 4.6.2 beschreiben. Eine Teilhierarchie der relevanten Verbklassen (perception und attention) ist in Abbildung 4.12
dargestellt. Die Rollenhierarchie wurde in Abbildung 5.10, Seite 162, dargestellt.

4.2.2 Sorten
Wie in vielen Modellierungen von NLP-Lexika, wird auch in DELIS eine Sortenhierarchie
verwendet. Fur die Zwecke der DELIS-Beschreibungen wird auf die Ausarbeitung der Sortenhierarchie kein besonderer Wert gelegt. Sie ist nicht dafur gedacht, einen ontologischen
Erklarungswert oder eine sonstige Erklarungsrelevanz zu haben, die uber die Trennung

relativ unkontroverser Lesartenunterscheidungen hinausgehen wurde15 . Dementsprechend


ist die Sortenhierarchie sehr elementar und wenig ausgearbeitet; bei Bedarf konnte sie
aber erweitert werden, oder es konnte ein Domanenmodell angeschlossen werden. Die
Sortenhierarchie ist in der Abbildung 4.2 angegeben. Die Sorten sind als atomare Typen
von TFS de niert16 .
state
proposition
event
TOP

sort

abstract
entity

artifact
concrete

animal
animate
human

Abbildung 4.2: Die in DELIS verwendete rudimentare Sortenhierarchie


A hnlich wie bei den internen Merkmalen (z.B. INTENTION oben, Abschnitt 4.2.1.4, Statement 4.5), konnte auch fur die Sorten-Beschreibung von Subtypen der lexikalisch-semantischen Rollen ein alternativer Weg eingeschlagen werden. Anstatt die Hierarchie tiefer zu
gestalten, konnte man auch zwei achere Teilhierarchien durch Kreuzklassi kation miteinander verbinden:
 Die eine solche Teilhierarchie w
urde die nicht durch Sorten-Merkmale bedingte
Hierarchie von Rollen und Subrollen enthalten (z.B. die Unterscheidung zwischen
percept-actual, percept-target und percept-interpretation).
 Die andere Teilhierarchie ist die Sortenhierarchie. Durch Kreuzklassi kation, z.B.
zwischen percept-actual und den relevanten Sorten, wurden sich die Subtypen von
percept-actual ergeben17 . Die beiden Darstellungen sind konzeptuell und formal
aquivalent, jedoch wurde ein Kreuzklassi zierungs-Ansatz dem Architekturprinzip
der Modularisierung noch weiter entgegenkommen18 .

15 In DELIS wurde die De nition von Subrollen zum Teil von Sortenrestriktionen abhangig gemacht. Ein
typisches Beispiel hierfur sind die Subtypen von percept-actual, die in Abschnitt 4.6.2 beschrieben
sind.
16 Naturlich ist ein solches Vorgehen aus der Sicht einer detaillierteren lexikalisch semantischen Beschreibung unbefriedigend. Andererseits haben Arbeiten, z.B. im Kontext von Eagles und fruher bereits
in Eurotra, gezeigt, da es nahezu unmoglich ist, zwischen verschiedenen NLP-Projekten zu einem
Konsensus uber die verwendeten spezi schen Sorten-Bezeichnungen zu kommen. Auch bei Domanenmodellen (wie beispielsweise im Rahmen von Verbmobil) kann in gleicher Weise uber den Status
von Sorten diskutiert werden.
17 Vgl. die Statements oben, 4.7, Seite 106 und 4.72, 4.73, 4.74, 4.75 auf Seite 138.
18 Die Entscheidung fur verhaltnismaig tiefere Hierarchien und gegen Kreuzklassi kation in der bestehenden Modellierung ist technisch bedingt: Die zur Modellierung verwendete Version von TFS (TFS6.0.10 bzw. TFS-6.1) unterstutzt keine vollstandige Kreuzklassi kation. Diese Fragestellung wurde
oben in 5.3.2 detailliert diskutiert.

4.2.3 Rollenkonstellationen
4.2.3.1 Prinzipien
Fur die Klassi zierung von Verben nach Frame Semantics ist die Tatsache relevant, da
bestimmte Kombinationen von Rollen bzw. Subrollen (Rollenkonstellationen) bei einer
groeren Anzahl von Verben bzw. Verblesarten auftreten.
Eingangs wurde darauf hingewiesen, da das gemeinsame Auftreten der Rollen experiencer und percept f
ur die Wahrnehmungssituation charakteristisch ist. Bei Hinzutreten der judgement-Rolle ergeben sich weitere Kombinationen, entweder aus percept
und judgement, oder aus experiencer, percept und judgement (dreistellige Verben).
Schematisch ist diese grobe Klassi kation in der Abbildung 4.3 dargestellt.
perception - frame

EXP

EXP-N

PCT

perception

judgement - frame

PCT

PCT

EXP-I

JUD

veridical
evaluative
inferential

PCT

attention

EXP-I

PCT

JUD

veridical
evaluative
inferential

Abbildung 4.3: U berblick uber die Grobklassi kation der semantischen Rollenkonstellationen im Wahrnehmungsbereich
Rollenkonstellationen beschreiben Szenarientypen. Die oben schematisch angegebenen
Kombinationen beschreiben bestimmte Subtypen des Wahrnehmungsszenariums. Wir nennen die durch eine gemeinsame Rollenkonstellation de nierten Verblesarten mitunter eine
\semantische Verbklasse".
Tabelle 4.4 enthalt Lemmata des Englischen, die (jeweils fur die funf Modalitaten
der Wahrnehmung) Lesarten aus den Klassen perception, attention und judging haben konnen. In Tabelle 4.5 sind einige englische Satzbeispiele, jeweils nach semantischen
Klassen, mit den zugehorigen Rollenkonstellationen angegeben.
Tabelle 4.4 zeigt, da nur bei Verben der visuellen und der auditiven Wahrnehmung
die Unterscheidung der Klassen durch lexikalische Di erenzierung erfolgt, wahrend sie
sich bei den anderen Wahrnehmungsmodalitaten in unterschiedlichen Lesarten desselben
Verbs, mit unterschiedlichen syntaktischen Eigenschaften, auert. Die Beispiele fur EN
[to] taste in Tabelle 4.6 zeigen dies deutlich.
Der Nutzen einer lexikalischen Beschreibung nach Rollenkonstellationen darf nicht
unterschatzt werden. Sowohl fur die Gestaltung monolingualer als auch bilingualer Worterbuchfragmente kann die Rollenkonstellation (interpretiert als Menge, nicht als Liste)
einen Ausgangspunkt darstellen. Werden alle Lesarten zusammengestellt, die dieselbe

Semantische Verbklasse vis


perception
see
attention
look
watch
judging-veridical
{
judging-evaluative
look

aud olf
gus tac
hear smell taste feel
listen smell taste feel
{
smell taste feel
sound smell taste feel

Tabelle 4.4: Englische Wahrnehmungsverben: Lemmabeispiele zu den wichtigsten semantischen Verbklassen


Verbklasse
perception

Rollenkonstellation
[Role: exper-nonint] [Role: p-actual]

Beispiele
John saw the light.
John saw the car.
attention
[Role: exper-int] [Role: p-actual ]
John watched the car.
John looked at the book.
attention-tgt. [Role: exper-int] [Role: p-target]
John looked for a pen.
judging-ver.
[Role: p-actual] [Role: j-ver]
The juice tastes sweet.
judging-eval. [Role: p-actual] [Role: j-eval]
The juice tastes awful.
judging-inf.
[Role: p-actual] [Role: j-inf]
She looks tired.
Tabelle 4.5: Beispiele fur semantische Klassen und ihre typischen Rollenkonstellationen
<

>

<

>

<
<
<
<

>

>

>

>

Rollenkonstellation aufweisen, so entsteht eine ansatzweise onomasiologische Gruppierung


des beschriebenen Fragments, bzw. nahe Synonyme werden zusammengestellt.
Wird derselbe Vergleich von Lesarten uber zwei Sprachen hinweg angestellt, so lat
sich Rohmaterial fur die Beschreibung von U bersetzungsaquivalenten gewinnen. Zwar wird
nicht angenommen, da die Beschreibung mithilfe von Rollen von Frame Semantics eine
irgendwie \universelle" semantische Paraphrase liefert, aber in der Praxis zeigt sich doch,
da Rollenkonstellationen mit gutem Ergebnis parallel fur die DELIS-Sprachen benutzt
werden konnen.
Ein einfaches Beispiel fur einen solchen Vergleich gibt [Schwenger 1995] (vgl. die Tabellen 4.7 und 4.8): DE duften und FR embaumer, eurer haben dieselbe Rollenkonstellation
(\FEG" in Abbildung 4.7 und 4.8). Die franzosischen Lesarten sind synonym; gleichzeitig
Semantische Verbklasse Beispiele
perception
I tasted garlic in the soup.
attention
John has tasted the soup.
judging-veridical
This juice tastes bitter.
judging-veridical
This substance tastes of cough drops.
judging-evaluative
This juice tastes nice.
Tabelle 4.6: Lesarten von EN [to] taste

sind sie A quivalenzkandidaten fur DE duften in der Lesart mit derselben Rollenkonstellation. Ein solcher Vergleich von Rollenkonstellation ist auch bei \Divergenzen" (im Sinne
von Dorr) moglich, wie das Beispiel in 4.8 zeigt.
Lemma

duften
GF: Subj
PT: NP
(gut)

FEG
P-act

Lemma

Lemma

eurer

embaumer

Subj
NP
(J-eval) (bon)

Subj
NP
(bon)

Tabelle 4.7: Kontrastive Beschreibung auf der Grundlage von Frame Element Groups: ein
einfaches Beispiel FR $ DE
Generell kann man sich auch die Beschreibung von \komplexeren" A quivalentvorschlagen
nach demselben Muster vorstellen. Die Beispiele in Tabelle 4.9 zeigen dies: die Tabelle
ist parallel zu Tabelle 4.4 angelegt. Fur die judging-Lesarten, sowie fur die perceptionLesarten mit FR sentir stehen jedoch keine einfachen Verben als franzosische A quivalente
der englischen Lesarten zur Verfugung.

4.2.3.2 Beispiele fur Rollenkonstellationen aus dem Franzosischen

Die Feinklassi kation des Gegenstandsbereichs der Wahrnehmungsverben ist erheblich


detaillierter. Man kann die Rollenkonstellationen aus praktischen Grunden in Teilklassen

Lemma

riechen
PT: NP
GF: Subj

FEG
P-act

J-verid

Lemma

sentir
NP
Subj

PT: PP (Prap=nach)
AdvP
GF: P-Obj
Xcomp
Tabelle 4.8: Kontrastive Beschreibung mit Frame Element Groups: Syntaktische Divergenz

Verbklasse vis
perception voir
attention
jud.-verid.

regarder
{

jud.-eval.

qc. est adj


a la vue

aud
entendre

olf
sentir l'odeur
de np
sentir
avoir une
odeur adj

gus
sentir le go^ut
de np
go^uter
avoir un
go^ut adj

tac
sentir
(la sensation de) np
ecouter
sentir/toucher
{
ressembler a np
qc. est adj au
toucher
qc. est adj avoir une odeur adj avoir un go^ut adj avoir un toucher
a l'oreille qc. est adj a l'odeur qc. est adj au go^ut adj [rare]
qc. est adj au
toucher

Tabelle 4.9: Franzosische A quivalentvorschlage zu den englischen Wahrnehmungslesarten


aus Tabelle 4.4
einteilen (vgl. Statement 4.9), danach, ob eine, zwei oder drei Rollen vorliegen19. Nachfolgend wird als Beispiel das Teilfragment des Franzosischen diskutiert.
(4.9)
one-role
< semclass.
two-roles
< semclass.
three-roles < semclass.

Einstellige Lesarten Die Subtypen von experiencer und percept-actual konnen

ohne andere Rollen auftreten. Wenn die Rolle experiencer-non-intentional alleine auftritt, so hat die entsprechende Lesart des Verbs eine Bedeutung, die dem Ausdruck einer
Wahrnehmungsfahigkeit dient, vgl. Statement 4.10. Aus diesem Grunde wird die Klasse
\faculty class" (fac) genannt. Daneben ist es moglich, da die Rolle experiencer-int
alleine auftritt (4.11).
Wenn die percept-Rolle alleine auftritt, so liegt eine Lesart vor, bei der eine Evaluation mitverstanden, jedoch nicht im Satz ausgedruckt ist (vgl. 4.12). Die Verben, die
solche Lesarten zulassen, schreiben gleichzeitig die Interpretation der mitverstandenen
judgement-evaluative-Rolle auf der gut $ schlecht-Skala vor. Bei dem Verb embaumer
ist die Lesart z.B. auf eine positive, bei sentir auf eine negative Evaluation festgelegt.
(4.10)
fac
< one-role.
(4.11)
(4.12)

fac[FEG:

<[FE: experiencer-nonint] >].

exp-i-only
exp-i-only[FEG:

< one-role.
<[FE: experiencer-int]>].

pct-only
pct-only[FEG:

< one-role.
<[FE: percept-actual-ent]>].

Beispiele:
 Faculty verbs (fac): Il n'est pas aveugle, il voit (cf. Statement 4.10),
19 Die semantischen Klassen werden alle unter dem Typ semclass zusammengefat. Diese Einteilung
dient mehr der kunstlichen Partitionierung der Beschreibungen, als da sie deskriptiven Wert hat.
Auch die syntaktischen Klassen werden in analoger Weise zusammengefat und unter dem Typ
synclass aufgelistet. Da sowohl semclass als auch synclass in gleicher Weise durch den Typ
set-of-fe beschrieben sind, werden auf sie dieselben Konsistenzbedingungen angewendet. Diese Konsistenzbedingungen werden unten in Abschnitt 4.4 noch detaillierter beschrieben.

Verben nur mit experiencer-int: Je regarde, mais je ne vois rien (cf. 4.11),
 Verben nur mit percept-actual: Ce fromage sent (cf. 4.12).
Die Abbildung 4.4 stellt die Hierarchie der in der Beispielmodellierung beschriebenen
Lesarten mit einer einzigen Rolle dar (in der vom TFS-System generierten Form). Die
semantischen Klassen und (als terminale Knoten) die zugehorigen Lesarten sind jeweils
angegeben.


voir-fac
fac

entendre-fac
respirer-fac
sentir-pct

pct-only

one-role

s-apercevoir-pct
ecouter-exp-att
observer-exp-att
exp-i-only

sentir-exp-att
regarder-exp-att
toucher-exp-att

Abbildung 4.4: Hierarchie der einstelligen Lesarten aus dem Beispielfragment der franzosischen Wahrnehmungsverben

Zweistellige Lesarten Die Gruppe der zweistelligen Lesarten zerfallt, wie oben in Ab-

bildung 4.3 angegeben, in die perception- und attention-Lesarten, sowie in die judgingLesarten. Jede der Teilklassen hat weitere Subtypen, die zum Teil durch Sortenrestriktionen bedingt sind (vgl. die Diskusion in Abschnitt 4.6.2 und die Abbildung 4.12, Seite
140). Die Klasse perc-act-ent enthalt beispielsweise diejenigen Lesarten, die als percept
nur ein Objekt zulassen, dessen Konzept als von der Sorte entity klassi ziert ist. Die
attention-Lesarten weisen auerdem eine weitere Subklassi zierung auf, je nachdem, ob
ein percept-target oder ein percept-actual vorliegt.
In 4.13 und 4.14 sind jeweils die De nitionen der perception und der attentionKlasse und ihrer Subklassen angegeben.
(4.13)
perc
< two-roles.
perc[FEG:

<[FE:

experiencer-nonint] [FE: percept]>].

perc-act
perc-act[FEG:

< perc.
<[FE:
experiencer-nonint] [FE: percept-actual]>].

perc-act-ent
perc-act-ent[FEG:

< perc-act.
<[FE:
experiencer-nonint] [FE: percept-actual-ent]>].

perc-act-prp
perc-act-prp[FEG:

< perc-act.
<[FE:
experiencer-nonint] [FE: percept-actual-prp]>].

(4.14)

att <two-roles.
att[FEG:

<[FE:

experiencer-int] [FE: percept]>].

att-act-ent
att-act-ent[FEG:

< att.
<[FE:

experiencer-int] [FE: percept-actual-ent]>].

att-hum
att-hum[FEG:

< att.
<[FE:

experiencer-int] [FE: percept-actual-hum]>].

att-act-prp
att-act-prp[FEG:

< att.
<[FE:

experiencer-int] [FE: percept-actual-prp]>].

att-tgt
att-tgt[FEG:

< att.
<[FE:

experiencer-int] [FE: percept-target]>].

Zweistellige judging-Lesarten weisen ein percept und eine judgement-Rolle auf. Die
judgement-Rolle hat mehrere Subtypen (judgement-veridical, judgement-evaluative,
judgement-inferential, vgl. die Statements 4.15 bis 4.18, unten und die judgementSubrollen im Rahmen des \judging frame").
Fur das Franzosische nehmen wir an, da das Objekt, welches die percept-Rolle realisiert, ein Konzept von der Sorte entity enthalten mu. Im Englischen und Deutschen
konnen auch Sachverhalte an dieser Stelle auftreten.
(4.15) judging
< two-roles.
(4.16)
(4.17)
(4.18)

judging[FEG:

<[FE:

percept-actual]

[FE: judgement]>].

judging-veridical
judging-veridical[FEG:

< judging.
<[FE: percept-actual-ent] [FE: judgement-veridical]>].

judging-evaluative
< judging.
judging-evaluative[FEG: <[FE: percept-actual-ent] [FE: judgement-evaluative]>].
judging-inferential
< judging.
judging-inferential[FEG: <[FE: percept-actual-ent] [FE: judgement-inferential]>].

In Abbildung 4.5 wird die Hierarchie der in der Beispielmodellierung beschriebenen semantischen Klassen mit zwei Rollen, samt zugehorigen Lesarten, in der vom TFS-System
generierten Form reproduziert.

Dreistellige Lesarten Rollenkonstellationen mit drei Rollen sind in der Modellierung

der franzosichen Wahrnehmungsverben relativ selten. Auch fur das Niederlandische und
Englische wurden nicht sehr viele Beispiele gefunden. Im Franzosischen scheinen dreistellige Lesarten, die eine experiencer-Rolle, ein percept und ein judgement beinhalten,
hau ger auerhalb des Bereichs der sinnlichen Wahrnehmung aufzutreten; diese Lesarten dienen in der Regel zum Ausdruck einer mentalen Wahrnehmung, d.h. des Verstehens
oder Interpretierens. Selbst die Beispiele, die fur das Franzosische angegeben werden (z.B.
je regarde cet objet comme etrange oder je vois en Marie un danger pour notre groupe)
konnen kaum als Wahrnehmungslesarten interpretiert werden.
Umgekehrt gibt es im Franzosischen keine Moglichkeit, Konstruktionen ohne weiteres
nachzubilden wie das Englische this soup tastes delicious to me oder das Deutsche diese
Suppe schmeckt mir gut. Im Franzosischen sind andere Konstruktionen notwendig, die
entweder die Realisierung der experiencer-Rolle durch ein Adjunkt notwendig machen

voir-perc-thing
apercevoir-perc-thing
s-apercevoir-perc-thing
entendre-perc-thing
sentir-perc-thing
perc-act-ent
toucher-perc-thing
respirer-perc-thing
observer-perc-thing-em
s-apercevoir-perc-thing-em
voir-perc-thing-em
perc

perc-act

voir-perc-prp
apercevoir-perc-prp
s-apercevoir-perc-prp
entendre-perc-prp
sentir-perc-prp
perc-act-prp

voir-perc-xaci
entendre-perc-xaci
sentir-perc-xaci
voir-perc-prp-em
s-apercevoir-perc-prp-em
observer-perc-prp-em

ecouter-att-thing
regarder-att-thing
observer-att-thing
toucher-att-thing
att-act-ent
gouter-att-thing
respirer-att-thing
regarder-media
two-roles

voir-media
entendre-att-hum
att-hum
ecouter-att-hum
regarder-att-xaci

att

ecouter-att-xaci
att-act-prp
observer-att-xaci
observer-att-prp
ecouter-tgt
regarder-tgt
gouter-tgt
att-tgt

voir-tgt
sentir-tgt
observer-tgt
tater-tgt

judging-veridical
judging

sentir-veri-thing

judging-evaluative

sentir-eval

judging-inferential

sentir-inftl-cl

Abbildung 4.5: Hierarchie der zweistelligen Lesarten aus dem Beispielfragment der
franzosischen Wahrnehmungsverben

(selon moi, cette soupe est delicieuse), oder bei denen ein Verb benutzt wird, welches
nicht zum Wahrnehmungsbereich gehort, sondern zum Evaluationsbereich (cette soupe
me semble delicieuse; cette soupe me semble ^etre delicieuse).
Folgende Konstellationen sind fur das Franzosische identi ziert worden:


Zwei Subtypen der judging-attention-Klasse, mit der judgement-Subrolle judgement-evaluative (4.19) bzw. judgement-veridical (4.20) (vgl. Abbildung 4.3).

Ein Subtyp der perception-Klasse, bei welcher eine experiencer-Rolle, ein percept-actual und ein percept-interpretation kombiniert sind (4.21).

Die TFS-Statements fur die drei dreistelligen Rollenkonstellationen sind nachfolgend angegeben:
(4.19) judging-att
<three-roles.

(4.20)

(4.21)

judging-att[FEG:

<[FE: experiencer-int]
[FE: percept-actual-ent | percept-actual-prp]
[FE: judgement-evaluative]>].

judging-att-veri
judging-att-veri[FEG:

< three-roles.
<[FE: experiencer-int]
[FE: percept-actual-ent]
[FE: judgement-veridical]>].

perc-act-int
perc-act-int[FEG:

< three-roles.
<[FE: experiencer-nonint]
[FE: percept-actual]
[FE: percept-interpretation]>].

Beispiele:
 judging-att:

je le regarde comme etrange (cf. Statement 4.19);


je vois Marie p^ale; (cf. 4.20);

 perc-act-int:

j'entends a sa voix qu'elle est malade (cf. 4.21).

In Abbildung 4.6 sind die semantischen Klassen mit drei Rollen und die im TFS-Fragment
erfaten zugehorigen Lesarten dargestellt.

4.3 Syntaktische Beschreibung in DELIS


Wie bereits oben angedeutet, erfolgt die syntaktische Beschreibung in DELIS auf zwei
Ebenen, einerseits nach grammatischen Funktionen, andererseits nach syntaktischen Kategorien (Typen von Phrasenstruktur-Konstrukten). Die beiden Beschreibungsebenen werden separat modelliert und sind uber relationale Constraints miteinander verbunden.

entendre-pct-int
observer-pct-int
perc-act-int

s-apercevoir-pct-int
sentir-pct-int
voir-pct-int
voir-eval-att-en

three-roles
judging-att

regarder-eval-att
voir-eval-att-cm
voir-att-veri

judging-att-veri
sentir-att-veri

Abbildung 4.6: Hierarchie der dreistelligen Lesarten aus dem Beispielfragment der franzosischen Wahrnehmungsverben
Daruber hinaus konnen diese Beschreibungen mit zusatzlicher morphosyntaktischer Information angereichert werden20 .
Im folgenden werden zunachst die Beschreibungsinventare fur die beiden syntaktischen Ebenen dargestellt, dann wird ihre Interaktion beschrieben, und schlielich wird
ein uberblickshafter Vergleich mit HPSG und LFG angestellt.

4.3.1 Grammatische Funktionen


In DELIS wurden sowohl Experimente mit einem relativ fein gegliederten, reicheren Inventar grammatischer Funktionen, in diesem Fall ubernommen von LFG, als auch mit
einem grober strukturierten Inventar durchgefuhrt, wie es in HPSG benutzt wird. Da in
DELIS zusatzlich zu den grammatischen Funktionsnamen eine explizite Beschreibung subkategorisierter Komplemente nach syntaktischen Kategorien angegeben wird, und da beide
Informationstypen getrennt werden, hat es sich fur die speziellen Zwecke des DELIS-Worterbuchs als nicht notwendig erwiesen, ein sehr detailliertes Inventar von grammatischen
Funktionen zu benutzen.
Diese Entscheidung hat mit dem Unterschied in der Zielsetzung zwischen einem multifunktionalen Worterbuch im Fall von DELIS und einem theorie- bzw. anwendungsspezi schen Worterbuch im Fall von LFG zu tun: die Abbildungen zwischen c-Struktur und
f-Struktur in LFG beschreiben ja gerade den Zusammenhang zwischen syntaktischen Kategorien und grammatischen Funktionen. Da z.B. fur eine Nominalphrase durch die funktionalen Annotationen in der c-Struktur von LFG die jeweils moglichen grammatischen
Funktionen (z.B. Subjekt, Objekt etc.) angegeben werden, ist es in LFG nicht notwendig, nochmals im Lexikon zu spezi zieren, da beispielsweise die grammatische Funktion
\Subjekt" von einer Nominalphrase ubernommen werden kann.
20 Morphosyntaktische Beschreibungen sind im DELIS Corpus Evidence Encoding Schema, CEES,
enthalten, welches in [Heid/Kruger 1994] beschrieben ist. CEES ist ebenfalls vollstandig in TFS
kodiert worden, so da Kompatibilitat zwischen CEES-Corpus-Beschreibungen und den DELISLexikoneintragen hergestellt werden kann. Vgl. die Beispiele zur Morphosyntax, oben in Abbildung
3.5, Seite 78.

Will man jedoch, wie in DELIS, ein multifunktionales Worterbuch erstellen, das genugend
Information fur Lexikoneintrage sowohl von HPSG als auch von LFG enthalt, so ist es
durchaus sinnvoll, in der Lexikonspezi kation die Zusammenhange zwischen den beiden
syntaktischen Beschreibungsebenen explizit zu machen, die in den einzelnen Theorien
implizit sind oder auerhalb des Lexikons beschrieben werden21 .
Im Fall von DELIS werden daruberhinaus parallele Beschreibungen fur verschiedene Sprachen angestrebt. Die Zusammenhange zwischen grammatischen Funktionen und
syntaktischen Kategorien lassen sich fur die behandelten Sprachen \parametrisieren".
Beispielsweise mochte man fur Deutsch, Italienisch und Englisch satzformige Prapositionalobjekte zulassen, und zwar sowohl in einer Realisierung als da-Satz, als auch in einer
Realisierung als subkategorisierter indirekter Fragesatz, beispielsweise mit ob (vom Typ es
kommt darauf an, da der Vorsitzende zustimmt bzw. es hangt davon ab, ob ich Zeit habe).
Im Franzosischen sind zwar da-Satz-artige Konstrukte (mit de ce que) moglich, jedoch
erlaubt die franzosische Grammatik nicht, da subkategorisierte indirekte Fragesatze mit
einer Konstruktion gebildet werden, die dem Deutschen davon, ob ... entspricht. Solche
Zusammenhange werden in den einzelsprachlichen DELIS-Lexikonspezi kationen dadurch
beschrieben, da bei den Abbildungen zwischen grammatischen Funktionen und syntaktischen Kategorien im Falle des Deutschen, Italienischen und Englischen der wh-Fragesatz
als eine Option fur mogliche Phrasenstrukturtypen aufgefuhrt, beim Franzosischen dagegen ausgelassen wird22 .
Aus den genannten Grunden wurde das Inventar grammatischer Funktionen in DELIS weitgehend am \Minimalprogramm" von HPSG orientiert, nicht primar an LFG.
Auerdem entspricht das reduzierte Inventar grammatischer Funktionen eher Fillmores
Construction Grammar, dem syntaktischen Beschreibungsansatz, den Fillmore zusammen
mit Frame Semantics verwendet.
21 Es gibt allerdings Falle, wo LFGs grammatische Funktionen hinsichtlich der kategorialen Fullung unterspezi ziert sind, und wo dieser Tatbestand bei der Spezi kation lexikalischer Beschreibungen zu
Problemen fuhrt: XCOMP ist in LFG prinzipiell o en hinsichtlich der kategorialen Fullung: NPs, PPs,
APs k
onnen pradikative XCOMP-Funktion haben, auerdem wird die Funktion XCOMP kontrollierten in nitivischen Erganzungen zugewiesen; da aber die Auswahl aus NPjAPjPP bei Pradikativa eine
(idiosynkratische) Eigenschaft der Verben ist, mu in einem multifunktionalen Lexikon die jeweils
vom Verb erlaubte Kategorie des XCOMP spezi ziert werden: unten in Abschnitt 6.4 werden Beispiele angegeben, die zeigen, da z.B. deutsche und franzosische Verben mit Objektspradikativ sich
hinsichtlich der kategorialen Realisierung des Pradikativs unterscheiden konnen.
Das Lexikon mu also die kategoriale Realisierung des Pradikativs beschreiben konnen. Da in LFG
bislang kein expliziter Zugri auf Phrasenstrukturen aus den Lexikoneintragen moglich war, mute
das Problem durch zusatzliche Constraints auf der f-Struktur-Ebene (z.B. \ (" XCOMP VFORM)")
behandelt werden. Die Losungsversuche hierzu sind im Teil deskriptiv nicht besonders einleuchtend. In
allerneuesten Arbeiten zu LFG (vgl. e-mail-Rundschreiben im Projekt \Pargram" von Ron Kaplan,
Xerox PARC, Mai 1995) wird ein spezielles Merkmal verfugbar gemacht, mit welchem in Lexikoneintragen kategoriale Information spezi ziert und auf der c-Struktur abgepruft werden kann.
22 Je nach der formalen Beschreibung der Ober achensyntax (c-Struktur) von Konstruktionen des hier
angesprochenen Typs ist es durchaus moglich, da andere als die hier vorgeschlagenen Losungen
gewahlt werden. Beispielsweise kann das Deutsche davon (das Korrelat) als Prapositionalphrase analysiert werden, die auerhalb des da-Satzes auftritt usw.
Wenn man jedoch davon ausgeht, da fur ein multifunktionales Worterbuch ein bestimmter Abstraktionsgrad (unter Umstanden verbunden mit geringerer Granularitat der Teilbeschreibungen) angestrebt
wird, so lassen sich die Vorschlage hier durchaus vertreten. Abbildungen auf spezi schere Beschreibungen sind moglich.

Folgende grammatischen Funktionen werden verwendet; sie sind wieder als Typenhierarchie modelliert (vgl. unten die Abbildung 4.7):
 Subject (subj, identi ziert durch die u
blichen Subjekt-Tests, wie etwa Position im
Englischen, Kasusmarkierung im Deutschen usw.);
 Complement (Alle subkategorisierten Nicht-Subjekt-Funktionen);
 Adjunct (Nicht subkategorisierte Funktionen).
Die Funktionen Complement und Adjunct werden weiter in Subtypen unterteilt, wenn
Kontrolle oder eine pradikative Verwendung vorliegt.
Wie in LFG werden kontrollierte und nicht-kontrollierte Subtypen von Complement
und Adjunct unterschieden. Fur Falle mit Kontrolle werden die Subtypen xcomp und
xadjunct eingef
uhrt, die dieselben De nitionen wie die entsprechenden LFG-Funktionen
haben. Sie sind durch das Vorliegen der Kontrollrelation (mit obligatorischer Angabe des
controllers23 ) charakterisiert.
Die pradikativen Komplemente werden als ein eigener Untertyp aufgefuhrt. Die Beschreibung von Pradikativa soll (anders als in LFG) von Raising und Equi abgesetzt
werden (in HPSG wird hierzu ein Merkmal \[PRD: +]" verwendet).
Hiermit ergibt sich die folgende Liste von grammatischen Funktionen und Subtypen:
 subj
 complement

{
{
{

comp
xcomp [CONTROLLER: func]
predicative [PREDICATE-CONTROLLER: subj|comp]

 adjunct

{
{
{

(antial)-adjunct

circumst

xadjunct [CONTROLLER: func]

.
Die zugehorigen TFS-De nitionen (ohne xadjuct) sind in 4.22 bis 4.25 angegeben.
(4.22) func = subj | complement | adjunct.
pred-adjunct [PREDICATE-CONTROLLER: func]

comp

(4.23)

< complement.

xcomp < complement .


xcomp[CTRLR : subj | comp | u-comp].

23 Als controller kommt naturlich nur das Subjekt, ein Komplement (soweit es als NP realisiert ist)
oder eine semantisch nicht interpretierte Funktion (u-comp) in Frage. Die Funktion u-comp wird fur
die Beschreibung von Raising und von \a.c.i" (vgl. FR j'entends mon voisin tousser benutzt: \a.c.iVerben" sollen als zweistellige Pradikate (mit den Rollen experiencer, percept) analysiert werden.
Als controller des xcomp wird jedoch eine grammatische Funktion angenommen, die nicht in der
Pradikat-Argument-Struktur des Verbs auftritt (mon voisin im Beispiel oben). Diese Beschreibung
entspricht derjenigen von LFG.

(4.24)
(4.25)

predicative[PRED-C: subj | comp].


predicative < complement.
circumst-adjunct < adjunct.
pred-adjunct
< adjunct.
pred-adjunct[PRED-C: subj | comp].

Die Hierarchie von grammatischen Funktionen, die vom TFS-System hieraus kompiliert
wird, ist in Abbildung 4.7 angegeben.
circumst-adjunct
adjunct
pred-adjunct
comp
func

complement

xcomp
predicative

subj

Abbildung 4.7: Hierarchie der grammatischen Funktionen in DELIS


Analog zur Klassenbildung bei den Rollenkonstellationen (vgl. Abschnitt 4.2.3) werden
syntaktische Klassen eingefuhrt. Diese Klassen entsprechen z.B. den \SubkategorisierungsTemplates" in LFG. Fur jede der in den DELIS-Worterbuchern behandelten Sprachen gibt
es Typde nitionen fur solche syntaktischen Klassen. Sie geben an, welche grammatischen
Funktionen (und zum Teil welche syntaktischen Kategorien) kombiniert werden konnen.

4.3.2 Syntaktische Kategorien

In DELIS werden die syntaktischen Kategorien der traditionellen Grammatik und Lexikographie benutzt24 . Dabei wurden Hierarchien von Wortklassen und von syntaktischen
Kategorien de niert, die abstrakt genug sind, als da sie { mit kleineren sprachspezi schen
Erganzungen { fur alle DELIS-Sprachen benutzt werden konnen.
Die Teilhierarchien fur Prapositionen und Complementizer sind detaillierter ausgearbeitet, als dies bei den Kategorien fur Lexemworter der Fall ist, weil subkategorisierte
Erganzungen sich eher hinsichtlich der Wahl der Teilklassen von Complementizers oder
von Prapositionen unterscheiden, als hinsichtlich der Nomina oder Adjektive die als Kopf
der jeweiligen Phrase auftreten. In 4.26 sind, am Beispiel des Franzosischen, die Typen
von Kategorien angegeben, die in den DELIS-Beschreibungen benutzt werden.
(4.26) category = complementizer | conjunction | prep | n | v | adj.
Fur das Franzosische wird postuliert, da bestimmte Verben zwar indirekte Fragesatze
mit wh-Fragewortern (z.B. quand, qui, combien, quel-...) subkategorisieren, jedoch nicht
oder nur in einer anderen Bedeutung indirekte Fragesatze mit si. Dementsprechend wird
24 Die von Government-and-Binding und anderen stark hierarchisierenden Beschreibungsansatzen beein uten Kategorisierungen der neueren formalen Syntaxtheorien sind auf der hier verfolgten Ebene
der Granularitat nicht unmittelbar relevant: DELIS-Worterbucher stellen zunachst eine Grundlage
fur verschiedene Anwendungsformate bereit, ohne sich auf spezi sche Analysen festzulegen.

die Teilklasse wh-compl nochmals in zwei Unterklassen aufgespalten, eine fur die Konjunktion si, eine fur wh-Frageworter (qu-compl)25 . Die entsprechenden TFS-Statements
sind in 4.27 bis 4.31 angegeben. Die Namen der Typen sind, dem Grundsatz der \parallelen" Fragmente entsprechend, fur die DELIS-Sprachen dieselben (z.B. \wh-compl" fur
indirekte Frageworter).
(4.27) complementizer = wh-compl | that-compl.
(4.28) qu-compl < wh-compl.
(4.29) quand < qu-compl.
comment
comme-1
qui

<
<
<

qu-compl.
qu-compl.
qu-compl.

(4.30) si
< wh-compl.
(4.31) que
< that-compl.
Die Domane der Prapositionen ist aufgeteilt in Prapositionen, die \kasusmarkierende"
Funktion bei subkategorisierten Prapositionalobjekten haben (obj-prep: vgl. DE rechnen
mit, denken an, FR compter sur, r^ever de), Prapositionen, die pradikative Erganzungen
einleiten konnen (predi-prep: vgl. DE ansehen als, FR prendre pour, regarder comme),
sowie andere Prapositionen, die primar in Adjunkten auftreten konnen26 .
(4.32) prep = obj-prep | predi-prep | other-prep.
(4.33) en < obj-prep.
a < obj-prep.
de < obj-prep.

(4.34) comme-2 < predi-prep.


Die Abbildung 4.8 zeigt die Hierarchie der Wortklassen, die fur die DELIS-Modellierung
des Franzosischen verwendet wird.
Die Teilhierarchie der syntaktischen Kategorien ahnelt im Aufbau der Hierarchie der
Wortklassen (Projektion). Die ublichen phrasenstrukturellen Konstrukte, z.B. Nominalphrasen, Adjektivphrasen, Adverbialphrasen, sind nicht weiter subklassi ziert, weil sich
dies fur die Beschreibung der subkategorisierten Verberganzungen nicht als notwendig
erweist. Dagegen sind, analog zur Subklassi kation von Prapositionen und Complementizers, Subtypen fur prapositionale Erganzungen und fur subkategorisierte Nebensatze
25 FR apercevoir und s'apercevoir kommen bevorzugt oder ausschlielich mit comment, combien,
vor, aber selten oder nie mit si. Die in DELIS bearbeiteten Datenmengen erlauben keine ganz prazise
Angabe, aber die hier skizzierte Situation scheint die vorgenommene Klassi kation zu stutzen. Karine
Baschung (Clermont-Ferrand) sei an dieser Stelle fur die U berprufung der hier zugrundeliegenden
Beschreibungen gedankt. Fur die anderen Sprachen wurde eine vergleichbare Unterscheidung nicht
beobachtet.
26 Naturlich konnen dieselben Prapositions-Lexeme die eine oder die andere Funktion haben. Am Beispiel
der Praposition FR comme zeigt sich in der beispielhaften partiellen Kodierung, da solche Falle durch
die Aufspaltung in mehrere \Lesarten" (hier comme-1 und comme-2) beschrieben werden mussen. In
diesem Fall gibt es eine konjunktionale und eine prapositionale Lesart von comme (vgl. Statements
4.29 und 4.34). Dasselbe Vorgehen wird jedoch auch bei Prapositionen verwendet, die verschiedenen
Subtypen der Klasse prep zugehoren.
:::

adj
v
n
other-prep
category

prep

predi-prep

comme-2
en

obj-prep

a
de

conjunction

comme-si
that-compl

que
si

complementizer

quand

wh-compl

comment
qu-compl
comme-1
qui

Abbildung 4.8: Teilhierarchie der Wortklassen in der DELIS-FR-Modellierung


eingefuhrt worden. Die Hierarchie der syntaktischen Kategorien ist in Abbildung 4.9 angegeben.
Die TFS-Statements fur subkategorisierte Nebensatze sind in 4.35 bis 4.39 angegeben:
(4.35) phrasetype = vp | np | pp | ap | subclause | advp | s.
(4.36) subclause = complement-cl | conj-cl.
subclause

(4.37)
(4.38)
(4.39)

[COMPLEMENTIZER:

complementizer | conjunction].

complement-cl = que-cl | wh-cl .


conj-cl

[COMPLEMENTIZER:

que-cl
[COMPLEMENTIZER:
wh-cl
[COMPLEMENTIZER:
si-cl
[COMPLEMENTIZER:
qu-interro-cl[COMPLEMENTIZER:

conjunction].
que].
wh-compl].
si].
qu-compl].

Die Modellierung zeigt deutlich, da die Unterscheidungen auf der Kategorienebene und
auf der Ebene der Wortklassen parallel laufen. Die einzelnen Subtypen von subkategorisierten Satzen werden ja im wesentlichen danach unterschieden, welcher Subtyp von
Complementizer verwendet wird (vgl. Statements 4.37 bis 4.39). In der gleichen Weise
verweisen die Subtypen der Prapositionalphrase (vgl. Statements 4.40, 4.41) auf die als
Kopf eingesetzten Subtypen der Prapositionen27:
27 Dies ist ein weiteres Beispiel fur eine partielle Modellierung von linguistischen Objekten, die sich
an der Modellierung der zugrundeliegenden Beschreibungsbausteine orientiert, vgl. die Diskussion in
Abschnitt 4.6.2.

s
advp
conj-cl
si-cl

subclause

wh-cl
qu-interro-cl

complement-cl
que-cl
phrasetype

ap
other-pp
pp

predicative-pp
obj-pp

np
vp

Abbildung 4.9: Teilhierarchie der Typen von syntaktischen Kategorien im Fragment fur
Franzosisch
(4.40)
(4.41)

pp[PREP: prep].
pp = obj-pp | predi-pp | other-pp.
obj-pp[PREP : obj-prep].
predi-pp[PREP: predi-prep].

4.3.3 Abbildungen zwischen grammatischen Funktionen und syntaktischen


Kategorien
Die Abbildungen zwischen grammatischen Funktionen und syntaktischen Kategorien sind
ein Teil der relationalen Komponete des Worterbuchmodells (vgl. oben die Diskussion
in Abschnitt 3.2.3, Seite 92). Die Abbildungen entsprechen der ublichen Intuition uber
Zusammenhange zwischen grammatischen Funktionen und syntaktischen Kategorien. Die
meisten Statements konnen uber die beteiligten Sprachen hinweg generalisiert werden; wo
notig (vgl. oben die Diskussion uber franzosische indirekte Fragesatze, Abschnitt 4.3.1,
Seite 116), werden Unterschiede zwischen den einzelnen Sprachen durch Parameterisierung
der Abbildungsregeln erfat.
Die Abbildungen fur das franzosische Fragment sind in 4.42 zusammengestellt:
(4.42) gf-ph[GF: subj,
PT:
gf-ph[GF:
PT:
gf-ph[GF:
PT:
gf-ph[GF:
PT:
gf-ph[GF:
PT:
gf-ph[GF:
PT:

vp | np | que-cl].
comp,
vp | np | subclause | pp].
xcomp[CTRLR: subj | comp | u-comp],
s | vp].
predicative[PRED-C: subj | comp],
ap | np | predi-pp].
circumst-adjunct,
pp | conj-cl ].
pred-adjunct[PRED-C: subj | comp],
ap | np | pp].

Fur das Franzosische wird postuliert, da die Funktion des Subjekts durch Verbalphrasen,
Nominalphrasen oder que-Satze (nicht indirekte Fragesatze!) realisiert werden kann. Fur
die Funktion comp wird ausgesagt, da Verbalphrasen, Nominalphrasen, Prapositionalphrasen und jede Art von Komplementsatzen moglich sind28 .
Fur die Funktion xcomp wird auch eine Abbildung auf die Kategorie s (fur sentence)
vorgenommen, weil im zur Rede stehenden Fragment insbesondere a.c.i-Konstruktionen
(je vois Marie traverser la rue) behandelt werden, fur die auf der Phrasenstrukturebene eine Beschreibung als Satz adaquater ist, als eine Beschreibung als Verbalphrase. Als
pradikative Erganzungen konnen Adjektivphrasen, Nominalphrasen und Prapositionalphrasen auftreten.
Die beiden Typen von Adjunkten werden in gleicher Weise durch Abbildungen zwischen der grammatischen Funktion und dem Phrasenstrukturtyp de niert. U blicherweise konnen Adjunkte als Prapositionalphrasen oder konjunktionale Nebensatze auftreten.
Pradikative Adjunkte konnen Adjektivphrasen, Nominalphrasen oder Prapositionalphrasen sein. Als pradikative Adjunkte werden Falle wie DE er schaute erstaunt zur Tur
beschrieben.

4.3.4 Ableitbarkeit von Lexikoneintragen fur LFG und HPSG aus


DELIS-Eintragen

In der Diskussion am Beginn von Abschnitt 4.3.1 wurde bereits darauf hingewiesen, da
die DELIS-Worterbucher gegenuber einem anwendungsspezi schen Worterbuch, wie es
beispielsweise fur LFG oder fur HPSG geschrieben wurde, relativ redundant erscheinen,
weil sie die syntaktische Beschreibung auf beiden Ebenen (grammatische Funktionen und
syntaktische Kategorien) vollstandig ausbuchstabieren und zusatzlich noch die Zusammenhange zwischen den beiden Teilbeschreibungen explizit modellieren. Oben wurden
hierfur bereits Argumente aus der Sicht des multifunktionalen Worterbuchs und des Aufbaus von parallelen mehrsprachigen Lexikonfragmenten gegeben.
Aus den die DELIS-Worterbucheintragen konnen aus diesem Grund sowohl LFGEintrage, als auch HPSG-Eintrage direkt abgeleitet werden. Als Beispiel wird in Statement
4.43 die Frame Element Group einer Lesart des franzosischen Verbs sentir (wie etwa im
Satz Jean sent l'odeur) sinngema angegeben:
(4.43) < [ FE
: experiencer-nonint,
[ FE
: percept-actual,
GF
: subj,
PT
: np,
EXPRESSION : ``Jean'']

GF
: comp,
PT
: np,
EXPRESSION : ``l'odeur'' ] >

Der entsprechende LFG-Eintrag in 4.44 gibt lediglich das Lemma, die Kategorie und die
Pradikat-Argument-Struktur mit subkategorisierten grammatischen Funktionen an:
(4.44)
sentir, v*:
(" PRED) = \sentir h (" SUBJ)(" OBJ) i"
Der Eintrag ist erheblich kompakter, da die Abbildungen zwischen Funktionen und Phrasenstrukturtypen durch die funktionalen Annotationen im c-Struktur-Gerust der Gram28 Zu den Komplementsatzen zahlen hier auch Konjunktionalsatze (wie etwa im Falle von mit comme
si eingeleiteten Vergleichssatzen), die im Rahmen der Frame Semantics-Modellierung der judgingLesarten franzosischer Wahrnehmungsverben mitbehandelt werden (cela sent comme s'il avait ete
oublie dans le frigo).

matik ubernommen werden, und da Aussagen uber die Zusammenhange zwischen semantischen Relationen und grammatischen Funktionen durch die Lexical Mapping Theory
spezi ziert werden (konnen) und somit wiederum nicht im Lexikoneintrag aufzutreten
brauchen.
Ein HPSG-Eintrag fur FR sentir in dem Satz Jean sent l'odeur ist in 4.45 in dem
Format reproduziert, wie es in [Heid/Kuhn 1994] benutzt wird:
3

phon hsenti
6

(4.45)

37
2
3
2
7
6


6
77
6
6
vform n
77
6
7
6head
6
77
6
7
6
6
verb
77
6
7
6
6
37
2
77
6cat 6
6
77
6
7
6
6
subj
h
NP[nom,3sg]
i
77
6
7
6
6
1
55
4
77
6
4
val
6
77
6
6
i
comps
h
NP[acc]
2
77
6synsemjloc6
77
6
6
2
377
6
6
77
6
7
6
reln
perception
6
7
6
6
77
7
6
6
6experiencer 1
777
6cont
6
4
577
6
6
77
6
6
2
percept
57
4
5
4

word

perception-soa

Der Eintrag in 4.45 ist expliziter und den DELIS-Eintragen ahnlicher als Eintrage von
LFG. Unter dem cont(ent)-Feature wird die semantische Beschreibung (Relation und
semantische Rollen, hier bewut mit den gleichen Rollennamen wie in Frame Semantics)
angegeben. Unter dem Merkmalspfad SYNSEMjLOCjCATjVAL werden separate Listen fur Subjekt und Komplemente angegeben. Die Trennung in Subjekt, Komplemente und Adjunkte,
die in DELIS auf der Ebene der grammatischen Funktionen durchgefuhrt wird, entspricht
der Einteilung in drei Teillisten in HPSG (im Lexikoneintrag in 4.45 sind naturlich nur
subj und Comps angegeben). In jeder Liste werden die einzelnen Elemente kategorial beschrieben (in diesem Fall als Nominalphrasen, mit den zugehorigen Agreement-Angaben).
Die Zusammenhange zwischen semantischen Relationen und subkategorisierten grammatischen Funktionen werden durch \Reentrancy-Tags" angedeutet.
Ziel der DELIS-Modellierung ist es nicht, eine moglichst elegante Darstellung zu wahlen,
die Redundanz auf allen Ebenen minimiert, oder die mit besonders ezienten Verfahren
verarbeitet werden kann. Vielmehr geht es darum, die Information, die fur verschienene
Anwendungen notwendig ist, intern so zu strukturieren, da die DELIS-Lexika modular
und konsistent gehalten werden konnen, und da Beschreibungen in anwendungsspezi schen Formaten abgeleitet werden konnen. Die Eintrage sollen auerdem die Grundannahmen von Frame Semantics berucksichtigen.

4.4 Abbildungen zwischen den Beschreibungsebenen


In diesem Abschnitt werden die Abbildungen zwischen den einzelnen linguistischen Beschreibungsebenen beschrieben, welche in der Lexikonspezi kation von DELIS formuliert
werden29 .
29 Aus der Sicht der Worterbucharchitektur wurde die Vorgehensweise in Abschnitt 3.2.2 angesprochen
und in Abbildung 3.14 schematisch dargestellt. Verschiedene Arten der Kombination von Informationen (zum Ausdruck von verschiedenartigen Generalisierungen) wurden in Abschnitt 4.1 fur das
Beispiel der DELIS-Worterbucher diskutiert. Schlielich wurde in Abschnitt 4.3.3 beschrieben, wie

Diese betre en Abbildungen zwischen den lexikalisch-semantischen Rollen und den grammatischen Funktionen, sowie die Abbildung zwischen den Rollen und den syntaktischen
Kategorien (die Abbildungen zwischen funktionaler und kategorialer Beschreibung wurden
oben diskutiert).
Beide Abbildungen konnen als Teil des Syntax-Semantik-Interface aufgefat werden. Je
nach Theorie werden entsprechende Beschreibungen in der \Lexical Mapping Theory" (im
Fall von LFG), in \Linking Rules" oder in allgemeinen Prinzipien beschrieben. Das Ziel ist
jeweils, die semantischen Rollen und die grammatischen Funktionen so anzuordnen, da
sich entweder allgemeine Korrelationen ergeben, oder da mindestens die Abbildungen
fur jede einzelne semantische Relation explizit spezi ziert werden konnen. Hier wird der
zweite Ansatz verfolgt.
Fur eine Lexikonspezi kation bietet sich die zweite Losung an, obwohl sie weniger
generell ist: allgemeine Prinzipien erfassen in der Regel beispielsweise nicht die Auswahl
von Prapositionen in Prapositionalobjekten oder sprachspezi sche Variationen auf der
Kategorie-Ebene. Bei der Entwicklung einer Spezi kation fur ein multifunktionales Worterbuch kann aber darauf verzichtet werden, fur samtliche behandelten Falle korrekte und
vollstandige Vorhersagen machen zu wollen. Wichtig ist, da die Spezi kation einen allgemeinen Rahmen fur die Konsistenzkontrolle bei der Erfassung einzelner, zum Teil auch
idiosynkratischer Beschreibungen abgibt, soda unerlaubte Beschreibungen ausgeschlossen werden konnen.
In den DELIS-Worterbuchern wird also keine Erklarung der Zusammenhange zwischen semantischen Relationen und grammatischen Funktionen angestrebt30 . Um jedoch
die Konsistenzkontrolle der lexikalischen Beschreibungen zu ermoglichen, mu, gewissermaen als minimale Form der Vorhersagen uber die Abbildungen zwischen Rollen und
grammatischen Funktionen, eine Liste der moglichen Kombinationen zwischen den beiden Beschreibungsmitteln angegeben werden. Die einzelnen Alternativen werden disjunktiv nebeneinandergestellt: die Statements geben also lediglich das Abbildungspotential an.
Die Auswahl erfolgt durch die Spezi kation von Rollenkonstellationen und Subkategorisierungsklassen, die, separat fur beide Beschreibungsebenen, angeben, welche Kombinationen
von Rollen, bzw. welche Kombinationen von grammatischen Funktionen moglich sind.
In 4.46 sind die Abbildungen zwischen den semantischen Rollen und den grammatischen Funktionen fur Franzosisch zusammengestellt:
Teilbeschreibungen der beiden in DELIS verwendeten syntaktischen Beschreibungsebenen (Ebene der
grammatischen Funktionen und Ebene der phrasenstrukturellen Konstrukte) miteinander interagieren, und wie diese Interaktion in TFS modelliert wird.
30 Solche erklarungsmachtigeren Beschreibungen konnen oft nur unter Zuhilfenahme von zusatzlichen
formalen Mitteln, wie z.B. Default-Annahmen, reihenfolgeabhangigen Statements, etc. modelliert werden. Ein Beispiel hierfur ist LFGs Lexical Mapping Theory. Der Ansatz der Lexical Mapping Theory
beruht auf einer \Hierachie" der Rollen und einer \Hierarchie" der grammatischen Funktionen. Die
Beschreibungselemente werden dabei nach ihrer Thematizitat, bzw. nach ihrer Obliqueness angeordnet. Die Reihenfolge der Beschreibungsmittel in den beiden Sequenzen ist relevant fur die Abbildung,
da das \hochste" Element der Rollenhierarchie (z.B. Agens) auf das \hochste" Element der Funktionenhierarchie (z.B. Subjekt) abgebildet wird. Die Regeln fur die Abbildung machen daruber hinaus
Aussagen dafur, welche Abbildungen moglich sind, wenn bestimmte Elemente schon zuvor in einer
bestimmten Weise abgebildet worden sind. Fur diese Art von Abbildungsverfahren lassen sich reihenfolgeabhangige (\prozedurale") Beschreibungen nden. In LFGs Lexical Mapping Theory gibt es
eine Reihe von \Mapping Principles", die zum Teil default-artige Mechanismen voraussetzen: eines
der Prinzipien verlangt, das die hochste verfugbare Rolle immer auf das Merkmal [-o] (non-objective)
abgebildet wird.

(4.46)

sem-gf[FE:
GF:

experiencer,
subj ].

sem-gf[FE:
GF:

percept-actual-ent | percept-actual-hum,
subj | comp].

sem-gf[FE:
GF:

percept-target,
comp].

sem-gf[FE:
GF:

percept-interpretation,
comp].

sem-gf[FE:

percept-actual-prp [FACTIVITY: +,
DIRECTNESS: -],
comp].

GF:
sem-gf[FE:
GF:

percept-actual-prp [FACTIVITY: -,
DIRECTNESS: +],
xcomp[CTRLR: u-comp]].

sem-gf[FE:
GF:

judgement,
predicative[PRED-C:

sem-gf[FE:
GF:

judgement-inferential,
comp].

subj | comp]].

Neben den Abbildungen zwischen Rollen und grammatischen Funktionen wird in DELIS
auch eine Abbildung zwischen Rollen und syntaktischen Kategorien angegeben.
A hnlich wie in den \Realisierungsregeln", welche z.B. in Systemen zur konzeptbasierten maschinellen U bersetzung (vgl. z.B. das KBMT-System (Knowledge Based Machine
Translation), [Nirenburg et al. 1992]) formuliert wurden, wird durch diese Abbildungen
beschrieben, da eine Rolle durch einen bestimmten Typ von syntaktischer Kategorie realisiert werden kann. Typische Beispiele hierfur sind die Realisierung von propositionalen
Argumenten durch Verbalphrasen, Nebensatze etc., oder die Realisierung von Pradikativa
durch Adjektivphrasen.
Daruberhinaus macht Frame Semantics eine Reihe von Annahmen uber die Zusammenhange zwischen den Rollen, die einzelnen frame elements zugewiesen werden, und der
syntaktischen Realisierung dieser frame elements (vgl. die Statements unten in 4.47)31.
Diese Aussagen werden in den Abbildungsregeln kodiert. Wiederum wird lediglich eine
Disjunktion der moglichen Konstrukte angegeben, d.h., in der Terminologie der Sprachgenerierung, das \Realisierungspotential". Einzelne Subkategorisierungsklassen konnen aus
diesem Realisierungspotential fur die jeweiligen Verblesarten relevante Teile \ausschneiden".
(4.47) sem-ph[FE: experiencer,
PT:

np ].

sem-ph[FE:
PT:

percept-actual-hum,
np ].

sem-ph[FE:

percept-actual-ent,

31 Beispiele: \experiencer" wird als NP (oder, im Passiv, PP) realisiert; \percept-target" kann im
Franzosischen nur als si-Satz realisiert werden (Il a regarde si la lumiere etait eteinte), usw.

PT:

obj-pp[PREP: de|en|a]].

sem-ph[FE:
PT:

percept-actual-ent,
np].

sem-ph[FE:

percept-actual-prp [FACTIVITY: +,
DIRECTNESS: -],
que-cl].

PT:
sem-ph[FE:
PT:
sem-ph[FE:
PT:

percept-actual-prp [FACTIVITY: +,
DIRECTNESS: -],
qu-interro-cl].
percept-actual-prp [FACTIVITY: -,
DIRECTNESS: +],
s ].

sem-ph[FE:
PT:

percept-target,
si-cl].

sem-ph[FE:
PT:

percept-interpretation,
qu-interro-cl | que-cl].

sem-ph[FE:
PT:

judgement-veridical | judgement-evaluative,
ap | np | predi-pp].

sem-ph[FE:
PT:

judgement-inferential,
ap | np | conj-cl].

Alle Abbildungsrelationen werden als Wohlgeformtheitsbedingungen uber die Formulierung von Frame Element Groups verstanden; in Statement 4.48 werden die einzelnen
Relationen als Bedingungen fur wohlgeformte Frame Elements (fe) eingefuhrt:
(4.48) fe[FE: #fe = role,
GF:
PT:

#gf = func,
#pt = phrasetype]:- sem-gf[FE:
GF:
gf-ph [GF:
PT:
sem-ph[FE:
PT:

#fe,
#gf ],
#gf,
#pt],
#fe,
#pt ].

In der De nition 4.48 wird zunachst das Vorhandensein je einer Teilbeschreibung der drei
linguistischen Ebenen gefordert (ein Objekt vom Typ fe hat die Attribute FE, GF und
PT). F
ur jede Ebene wird Zugehorigkeit zu dem jeweils relevanten Typ (role, func, bzw.
phrasetype) verlangt. Als Bedingung (nach dem Bedingungs-Symbol \:-") werden die
oben im Detail dargestellten Abbildungen angegeben. Eine Kombination aus Rollenbeschreibung, grammatischer Funktion und Phrasenstrukturtyp ist nur dann wohlgeformt,
wenn sie das Produkt der relationalen Constraints erfullt.
Anders gesagt: es mu aus den drei Teilmengen von Abbildungen (sem-gf, sem-ph,
gf-ph) mindestens je eine Abbildung pro Typ geben, die mit den je zwei anderen Abbildungen \zusammenpat". Fehlt eine Abbildung oder ist eine Kombination nicht durch
die de nierten Abbildungen erfat, so gilt die entsprechende frame element-Beschreibung
als falsch.

4.5 Zur U bertragbarkeit des Ansatzes: Ein Fragment fur italienische


Kommunikationsverben
In den vorausgehenden Abschnitten dieses Kapitels sind die Verfahren zur Strukturierung
monolingualer Worterbucher, die auf der in Abschnitt 3.2.2 vorgestellten Architektur beruhen, anhand der Modellierung von Wahrnehmungsverben aus verschiedenen Sprachen,
insbesondere Franzosisch, eingefuhrt worden. Im Folgenden wird ein kleines Fragment von
Kommunikationsverben des Italienischen vorgestellt, welches nach denselben Prinzipien
erstellt wurde. Die Beschreibung beruht ebenfalls auf Frame Semantics; die Datengrundlage ist in [Calzolari/Corazzari 1995] detailliert beschrieben.
Im folgenden Abschnitt soll nicht nur das italienische Beispielfragment prasentiert werden, sondern auch die Frage diskutiert werden, inwiefern sich der oben anhand der Wahrnehmungsverben beschriebene Ansatz auf andere Bereiche des Verbwortschatzes ubertragen und generalisieren lat.

4.5.1 Fragment

Wie im Falle der Wahrnehmungsverben, wurden auch fur die Modellierung der Kommunikationsverben relativ allgemeine Lexeme ausgesucht, die zum Teil Hyponyme haben, die
weitgehend analog linguistische Eigenschaften aufweisen. Im Rahmen von DELIS wurden
Kommunikationsverben des Italienischen und des Englischen, sowie ansatzweise des Danischen und Niederlandischen beschrieben und verglichen. Tabelle 4.10 stellt die Lemmata
der vier Sprachen zusammen.
Kriterium # Sprache !
Allgemeine
Kommunikationsverben
Mit \interrogativer"
Message

Mit \kommissiver" Message


Mit symmetrischer
Konstruktion
Mit negativer
Bedeutungskomponente

Italienisch Englisch Danisch


dire
tell
sige
say
chiedere
ask
sprge
domandare
promettere promise love
discutere discuss drfte
diskutere
negare
deny
naegte

Niederlandisch
zeggen
vragen
beloven
overleggen
bespreken
ontkennen

Tabelle 4.10: Fragment der in DELIS beschriebenen Kommunikationsverben


Im folgenden Abschnitt wird das italienische Fragment als Beispiel herausgegri en und
detaillierter diskutiert.

4.5.2 Lexikalisch-semantische Beschreibung


Auf der Grundlage von Vorarbeiten von Fillmore, und Atkins/Ostler werden zur Beschreibung der Kommunikations-Situation (communication frame) die Rollen Sender,
Addressee, Message und Topic verwendet32 .
Daneben sind eine Reihe weiterer Rollen fur Frame Elements notwendig, welche z.B.
in der Situation auftreten, die durch das Verb EN [to] speak bzw. IT parlare ausgedruckt
wird, wie etwa die Rolle Language (Parla italiano), Accent oder Manner.

4.5.2.1 Rollen
Die vier grundlegenden Rollen, Sender, Addressee, Message und Topic, sind in der aus
traditionellen Kommunikationsmodellen bekannten Weise de niert: die Sender-Rolle wird
dem Individuum zugewiesen, welches Kommunikationshandlung durchfuhrt; die AddresseeRolle tragt der \Empfanger" der Kommunikation; die Rolle Message wird fur die ubermittelte Nachricht verwendet, wahrend die Rolle Topic fur den besprochenen Gegenstand
(oder den Sachverhalt, uber den gesprochen wird) steht.
Fur die Message-Rolle gibt es eine doppelte Subklassi zierung, einmal nach dem Illokutionstyp (deklarativ, interrogativ, imperativ, kommissiv), zum anderen nach semantischsyntaktischen Subtypen; auf der Grundlage von Frame Semantics werden neben der unspezi zierten Message-Rolle die folgenden Subtypen unterschieden:
 Message-Noise: diese Rolle wird zugewiesen, wenn das betre ende Frame Element
eine direkt gesprochene (und wahrnehmbare) Botschaft bezeichnet; ublicherweise
wird ein solches Frame Element durch direkte Rede realisiert;
 Message-Content: diese Rolle wird zugewiesen, wenn das Frame Element den Inhalt einer Nachricht als Proposition beschreibt; realisiert beispielsweise als indirekte
Rede.
 Message-Description: diese Subrolle wird zugewiesen, wenn das Frame Element
in abstrakter Weise eine Botschaft denotiert; in der Regel werden solche Frame
Elements durch abstrakte Substantive (z.B. story, question, etc.) realisiert;
Die beiden Subklassi zierungen der Message-Rolle interagieren miteinander. So zeigt sich,
da Message-Description nur beim deklarativen Illokutionstyp vorkommt, wahrend
die Wiedergabe samtlicher drei33 verschiedenen Illokutionstypen durch indirekte Rede
(Message-Content) moglich ist. In gewisser Weise ist es nicht sinnvoll, fur direkte Rede
(Message-Noise) Illokutionstypen anzunehmen, oder aber samtliche Typen werden als
mit Message-Noise kompatibel beschrieben. Diese Zusammenhange sind in der Tabelle
4.11 zusammengefat.
Die Rollenhierarchie fur die Kommunikationsverben ist im Gegensatz zu derjenigen, die
bei den Wahrnehmungsverben verwendet wurde, relativ ach: nur bei der Rolle Message
wird uberhaupt eine Subklassi zierung vorgenommen.
32 Daruberhinaus wurde von [Calzolari/Corazzari 1995] die Benutzung einer weiteren Rolle,
\Content-Object" vorgeschlagen, um fur Beispiele vom Typ EN He promised her a book eine Moglichkeit zu haben, das Komplement von promise mit einer anderen Rolle als message oder topic zu
beschreiben.
33 Der kommissive Illokutionstyp wird nicht in dieser Weise kreuzklassi ziert.

Message-Subtyp

m-noise
m-description
m-content

Illokutionstyp
deklarativ interrogativ imperativ
+
+
+
+
+
+
+

Tabelle 4.11: Subtypen von Message vs. Illokutionstypen

4.5.2.2 Rollenkonstellationen
Auf der Grundlage des Rolleninventars wurde fur die italienischen Verben eine Hierarchie von Rollenkonstellationen entwickelt. Erwartungsgema gibt es keine Situationen
mit nur einer Rolle. Auerdem zeigt sich (mindestens fur das Italienische) deutlich, da
die Addressee-Rolle in vielen Fallen fakultativ ist. Entsprechend ndet sich ein Parallelismus zwischen zweistelligen und dreistelligen Lesarten, da sich die beiden Typen nur
durch die Anwesenheit bzw. Abwesenheit der Addressee-Rolle unterscheiden. Dies wird
aus der vom TFS-System generierten U bersicht der Rollenkonstellationen deutlich, welche
in Abbildung 4.10 wiedergegeben ist.
Die Datenanalyse von [Calzolari/Corazzari 1995] berucksichtigt die syntaktisch-semantischen Subtypen der Message-Rolle nicht, macht jedoch von einer Subklassi zierung der
Message-Rolle nach dem Illokutionstyp Gebrauch. Entsprechend sind die Rollenkonstellationen zum Teil danach subklassi ziert, welcher Illokutionstyp der jeweiligen MessageRolle zugewiesen wird.
Insofern die Interpretation der Message-Rolle hinsichtlich des Illokutionstyps eigentlich
eine Eigenschaft der betre enden Verben ist, ware eine Modellierung der entsprechenden
Constraints bei den Verben sicherlich noch adaquater; sie wurde jedoch nicht zu einer
nennenswert anderen Strukturierung des Verbfelds fuhren.

4.5.3 Syntaktische Beschreibung


Die syntaktische Beschreibung der Kommunikationsverben verwendet dieselben Beschreibungsmittel wie die Modellierung der Wahrnehmungsverben. An der Hierarchie der grammatischen Funktionen (vgl. oben, Abschnitt 4.3) wurde keine A nderung vorgenommen.
Fur die Beschreibung der direkten Rede als syntaktische Kategorie wurde ein eigener Typ
erganzt. Es wird davon ausgegangen, da direkte Rede durchaus als Verbkomplement auftreten kann. Ansonsten bleibt die De nition von Wortarten und syntaktischen Kategorien
gegenuber der Modellierung der Wahrnehmungsverben unverandert.
Die syntaktischen Beschreibungsbausteine, die fur die DELIS-Worterbucher de niert
wurden, konnen ohne weiteres fur beide Verbfelder benutzt werden. Der Aufwand bei
der Einfuhrung der Kommunikationsverben in die TFS-Wissensbasis betri t also nur die
Erganzung des Rolleninventars und die De nition der Abbildungen zwischen den drei
Beschreibungsebenen, die in der Frame Element Group beschrieben werden.

one-role
discutere-smd
send-md
negare-smd
sender-message

send-mimp
chiedere-smint
send-mint
domandare-smint

two-role

dire-st
send-top
discutere-st
send-adr

discutere-sa

semclass
dire-smda
promettere-smda
discutere-smda-np
send-md-add
discutere-smda-diinf
discutere-smda-qt
negare-smda-np
dire-sminta
sender-message-addressee

chiedere-sminta
send-mint-add
domandare-sminta
discutere-smda-wh
dire-smimpa

three-role

send-mimp-add

chiedere-smimpa
domandare-smimpa

dire-sta
chiedere-sta
send-top-adr
domandare-sta
discutere-sta

Abbildung 4.10: Rollenkonstellationen und Beispiel-Lesarten fur italienische Kommunikationsverben

4.5.4 Abbildungen zwischen den Beschreibungsebenen

In [Calzolari/Corazzari 1995] wird groer Wert auf Generalisierungen gelegt, die die Zusammenhange zwischen den Rollen der Frame Semantics-Beschreibung von Kommunikationsverben und der syntaktischen Realisierung dieser Rollen im Italienischen betre en.
In der Tat konnen fur die Subtypen der Message-Rolle Generalisierungen hinsichtlich der
syntaktischen Realisierung (in diesem Fall primar auf der Ebene der syntaktischen Kategorien) formuliert werden. Solche Generalisierungen ergeben sich sowohl auf der Grundlage einer Subklassi zierung nach Illokutionstypen, als auch bei der Klassi kation nach
semantisch-syntaktischen Subtypen.
Tabelle 4.12 stellt die Zusammenhange zwischen syntaktischer Realisierung und Illokutionstypen fur deklarative, interrogative und imperative Message-Subtypen zusammen. Erwartungsgema konnen Messages vom interrogativen Subtyp nur durch indirekte Fragesatze oder durch direkte Rede realisiert werden. Eine Realisierung als In nitivKomplement bzw. satzformige Erganzung ist sowohl beim deklarativen als auch beim
imperativen Subtyp moglich.
Syntax !
GF
PT
Illokutionstyp # comp xcomp np che-cl wh-cl di-Inf dir. Rede
deklarativ
+
+ +
+
+
+
+
interrogativ
+
+
+
imperativ
+
+
+
+
+
Tabelle 4.12: Realisierung von Message im Italienischen, nach Illokutionstypen
Auf der Grundlage der syntaktisch-semantischen Subklassi zierung der Message-Rolle
lassen sich ebenfalls einige Generalisierungen hinsichtlich der syntaktischen Realisierung
feststellen: erwartungsgema wird die Subrolle Message-Noise durch direkte Rede realisiert, wahrend Message-Content durch abhangige In nitive oder Satzkomplemente realisiert wird. Message-Description schlielich wird durch Nominalphrasen realisiert. Diese
Zusammenhange sind weitgehend in die De nition der Subrollen einge ossen (vgl. oben)
und werden aus diesem Grund von [Calzolari/Corazzari 1995] als redundant betrachtet.
Sie sind in Tabelle 4.13 zusammengestellt.
Daruber hinaus gibt es eine Reihe von Generalisierungen, die speziell fur das italienische Fragment formuliert werden konnen. Die wichtigsten davon sind auf der Grundlage
von [Calzolari/Corazzari 1995] nachfolgend zusammengestellt.


Die Realisierung der Addressee-Rolle erfolgt relativ regelhaft als indirektes Objekt
(Gli dice che ...) oder als Prapositionalobjekt mit der Praposition con, im Falle
von symmetrischen Verben (Ho discusso con Maria di ...). Wie oben bereits angedeutet, ist die Addressee-Rolle optional, soda sich ein Parallelismus zwischen den
Rollenkonstellationen mit zwei Rollen und denen mit drei Rollen ergibt.

Abhangige In nitive zum Ausdruck der Message-Rolle treten mit unterschiedlichen

Message-Subtyp

m-noise
m-description
m-content

GF
PT
comp xcomp np dir. Rede abh. S. Inf.
+
+
+
+
+
+
+
+

Tabelle 4.13: Realisierung von Message im Italienischen, nach semantisch-syntaktischen


Subtypen
Kontroll-Verhaltnissen auf. Liegt der deklarative Illokutionstyp vor, so steht Subjektskontrolle, liegt der imperative Illokutionstyp vor, so erfolgt Objektskontrolle:
{ Gianni dice a Maria di amarla (deklarativ: Subjektskontrolle)
{ Gianni dice a Maria di venire alle ore 6 (imperativ: Objektskontrolle)
Die Generalisierungen konnen weitgehend in der TFS-Modellierung bei der Formulierung
der Abbildungen zwischen den verschiedenen Beschreibungsebenen erfat werden. Dies
soll im Folgenden am Beispiel der Zusammenhange zwischen Illokutionstyp und syntaktischer Realisierung und anhand der Kontroll-Relationen illustriert werden.
Die in Tabelle 4.12 zusammengestellten Fakten werden in den relationalen Statements
ausgedruckt, die die Zusammenhange zwischen Rollen und syntaktischen Kategorien beschreiben. In den Statements 4.49 bis 4.54 sind die in Tabelle 4.12 zusammengestellten
Fakten kodiert. Die Statements 4.50, 4.51 und 4.52 beziehen sich auf die Abbildung der
Message-Rolle auf syntaktische Kategorien. Abh
angig vom Illokutionstyp werden verschiedene syntaktische Kategorien erlaubt.
(4.49) sem-ph[FE: sender,
PT: np].

(4.50)
(4.51)
(4.52)
(4.53)
(4.54)

sem-ph[FE:
PT:

message[ILLOC-FORCE: interrogative],
wh-cl | quotation-s ].

sem-ph[FE:
PT:

message[ILLOC-FORCE: declarative | imperative],


che-cl | di-vp | quotation-s ].

sem-ph[FE:
PT:

message[ILLOC-FORCE:
np].

declarative ],

sem-ph[FE: addressee ,
PT: obj-pp].
sem-ph[FE: topic,
PT: obj-pp[PREP: su | di]].

Die Abbildungen interagieren mit den Abbildungen zwischen Rollen und grammatischen
Funktionen, die in den Statements 4.55 bis 4.60 angegeben sind. Relevant ist hier zunachst
die Tatsache, da generell davon ausgegangen wird, da die Message-Rolle auf die grammatische Funktion comp abgebildet wird. Die allgemeinen Abbildungen zwischen grammatischen Funktionen und syntaktischen Kategorien (vgl. 4.61) sagen aus, da die Funktion

durch Nominalphrasen, Prapositionalphrasen, abhangige Satze oder direkte Rede


realisiert werden kann (vgl. Statement 4.56).
(4.55) sem-gf[FE: sender,
comp

GF: subj ].

(4.56)
(4.57)
(4.58)
(4.59)
(4.60)

sem-gf[FE: message,
GF: comp ].
sem-gf[FE: message[ILLOC-FORCE: declarative],
GF: xcomp [CTRLR: subj]].
sem-gf[FE: message[ILLOC-FORCE: imperative],
GF: xcomp [CTRLR: comp ]].
sem-gf[FE: addressee | topic,
GF: comp].
sem-gf[FE: topic,
GF: circumst-adjunct].

In 4.57 und 4.58 wird fur den deklarativen und imperativen Illokutionstyp alternativ zur
satzformigen Realisierung von Message eine Abbildung auf die Funktion xcomp (fur In nitive) de niert. An dieser Stelle wird ubrigens gleichzeitig, abhangig vom Illokutionstyp,
der jeweilige Typ von Kontrolle (Subjektkontrolle vs. Objektkontrolle) eingefuhrt.
Die De nitionen aus den Statements 4.50 bis 4.52 und 4.56 bis 4.58 interagieren mit
dem allgemeinen Statement 4.61 in der Weise, da nur die jeweils erlaubten Kombinationen aus Rolle, Funktion und syntaktischer Kategorie ausgewahlt werden konnen. Beispielsweise wird die in 4.61 de nierte Menge von Abbildungen im Fall des interrogativen
Illokutionstyps auf abhangige Fragesatze oder direkte Rede eingeschrankt (durch Anwendung von 4.50). Analog kann eine Abbildung auf die Funktion xcomp und damit auf einen
als vp klassi zierten abhangigen In nitiv nur erfolgen, wenn der deklarative oder der
imperative Illokutionstyp vorliegt (Statements 4.51, 4.57, 4.58).
(4.61) gf-ph[GF: comp,
PT:

np

| obj-pp | quotation-s | complement-cl].

Die hier formulierten Abbildungen interagieren mit den Realisierungsconstraints fur die
einzelnen Kommunikationsverben, die sich wiederum aus relativ allgemeinen De nitionen
der Subkategorisierungsklassen ergeben. Fur die dreistelligen Lesarten braucht das Subkategorisierungslexikon nur das Realisierungspotential der Message-Rolle zu enthalten; die
Auswahl erfolgt in Abhangigkeit der Anwendung der in 4.49 bis 4.61 zusammengestellten
Abbildungsregeln. Fur die einzelnen Verben ergibt sich damit die Menge der moglichen
Realisierungen aus der doppelten Parametrisierung der Beschreibungsbausteine, einerseits
derjenigen der allgemeinen Abbildungen fur die Message-Rolle, andererseits der Spezi kation der Subkategorisierungsklassen fur dreistellige Verben.
Als Beispiel hierfur kann die Klasse v-s-o-o2 gelten, die in dem Statement 4.62 in
allgemeiner Form de niert ist, und deren Untertypen in den Statements 4.63 bis 4.66
angegeben sind.
(4.62) v-s-o-o2 < synclass.
v-s-o-o2[FEG:

<fe[GF: subj]
fe[GF: comp| xcomp]
fe[GF: comp, PT: obj-pp[PREP: a,
CASE: dative]]>].

(4.63)

(4.64)

(4.65)

(4.66)

v-s-np-app < v-s-o-o2.


v-s-np-app[FEG: <fe[GF: subj]
fe[GF: comp, PT: np]
fe[GF: comp, PT: obj-pp[PREP: a,
CASE: dative]]>].
v-s-qt-app < v-s-o-o2.
v-s-qt-app[FEG: <fe[GF: subj]
fe[GF: comp, PT: quotation-s]
fe[GF: comp, PT: obj-pp[PREP: a,
CASE: dative]]>].
v-s-diinf-app < v-s-o-o2.
v-s-diinf-app[FEG: <fe[GF: subj]
fe[GF: xcomp[CTRLR: subj | comp]]
fe[GF: comp, PT: obj-pp[PREP: a,
CASE: dative]]>].
v-s-cc-app < v-s-o-o2.
v-s-cc-app[FEG: <fe[GF: subj]
fe[GF: comp, PT: complement-cl]
fe[GF: comp, PT: obj-pp[PREP: a,
CASE: dative]]>].

Die dreistelligen Lesarten von dire konnen als Beispiel fur die Interaktion zwischen den Abbildungsregeln und der allgemeinen Formulierung der Subkategorisierungsklasse v-s-o-o2
dienen: die Statements unter 4.67 de nieren samtliche Lesarten von dire; die dreistelligen
Lesarten verweisen dabei lediglich auf die allgemeine Subkategorisierungsklasse v-s-o-o2.
(4.67)

dire-smda
dire-smimpa

< send-md-add,
< send-mimp-add,

v-s-o-o2.
v-s-o-o2.

dire-st
dire-sta
dire-sminta

< send-top,
< send-top-adr,
< send-mint-add,

v-s-othpp.
v-s-opp-opp.
v-s-o-o2.

Die Beispiele zeigen, da auf der Grundlage des Inventars syntaktischer Beschreibungsmittel, welches fur die DELIS-Worterbucher de niert worden ist und mithilfe der in Abschnitt 3.2 de nierten Worterbucharchitektur nicht nur eine Erweiterung der lexikalischen
Beschreibungen um neue Verbklassen moglich ist, sondern auch, da auch bei einer solchen
Erweiterung interessante Generalisierungen erfat werden konnen. Die Bausteine und die
Architektur erscheinen mithin als allgemein genug, als da sie in einem groeren Rahmen
getestet werden konnten.

4.6 Probleme der Lexikonmodellierung


4.6.1 Typen vs. Features
Bei der lexikalischen Modellierung mu zunachst de niert werden, welches Beschreibungsvokabular auf den einzelnen linguistischen Ebenen benutzt werden soll. Die VokabularDe nition folgt in der Regel aus der Wahl des Beschreibungsansatzes.

Die grundlegenden (= \einfachsten"?) Beschreibungsbausteine werden als \atomar" aufgefat34). Die Aufgliederung bestimmter Beschreibungen in Merkmalsbundel (AttributWert-Paare, Features) oder die Benutzung von nicht weiter analysierten Werten (atomare Typen) ist eine Frage der Granularitat der Beschreibung, d.h. abhangig von der
Entscheidung des Lexikographen (oder der benutzten Theorie), auf welcher Ebene der
Detailliertheit von Beschreibungen noch Generalisierungen moglich sein sollen35.
In diesem Zusammenhang stellt sich die Frage, nach welchen Kriterien entschieden
wird, welche Beschreibungsmittel uberhaupt durch Attribut-Wert-Paare kodiert werden
sollen. Allgemeiner: welche Eigenschaften von Lexemen werden durch Attribut-WertPaare, welche durch atomare Typen kodiert? Welche Konsequenzen hat die Einfuhrung
von zusatzlichen Attributen? Umgekehrt: Typisierung kann zu \tieferen" Hierarchien
(mehr Subtypen) fuhren; wie tief soll die Lexikon-Hierarchie sein, bzw. welche Vor- und
Nachteile hat eine tiefe bzw. eine ache Hierarchie?
Ein Beispiel fur diese Fragestellungen ist die Kodierung von Subkategorisierungsbeschreibungen als Listen von Featurestrukturen; in verschiedenen NLP-Systemen werden
statt Listen Verbpradikate mit fester Stelligkeit benutzt, und die Verbargumente werden
unter Attributen mit ausgezeichneten Namen (\ARG-1", \ARG-2", \ARG-3") angegeben36 .
In HPSG spielt die einfache Behandlungsmoglichkeit von Listen bei der Prozessierung von
Satzen eine Rolle; in LFG werden Subkategorisierungsangaben separat im \PRED"-Wert
kodiert, als eine Liste von \existential constraints" aufgefat und mit separaten Mitteln
auf \Consistence and Coherence" uberpruft (d.h. es wird sichergestellt, da alle von einem
PRED subkategorisierten grammatischen Funktionen in der lokalen f-Struktur vorhanden
sind, und nur diese).
In der DELIS-Modellierung wurde eine Kodierung durch Listen komplexer Typen
gewahlt. Die Begrundung hierfur ist, da aus deskriptiver Sicht eine Modellierung als Typhierarchien die gewunschten Generalisierungen gut ausdruckt. Analog zu HPSG wurde
in DELIS fur die Pradikat-Argument-Struktur als ganzes eine Listenkodierung gewahlt,
obwohl einerseits in DELIS keine Notwendigkeit der direkten Verarbeitung von VerbBeschreibungen bei der Analyse von Satzen besteht, und obwohl andererseits Listen in
TFS gegenuber reinen Attribut-Wert-Strukturen nur eine eingeschrankte Moglichkeit der
Vererbung geben37 . Vorteile der Listennotation ergeben sich fur DELIS durch die Moglich34 Im Sinne von atomaren Typen von TFS (vgl. oben, Abschnitt 3.1.2.2), aber auch in dem Sinne, da
sie deskriptiv-linguistisch nicht weiter analysiert und nicht aus Komponenten aufgebaut werden. Die
Entscheidung daruber, was als atomar aufgefat wird, ist naturlich vom Beschreibungsansatz und den
jeweiligen Zielen abhangig: man kann beispielsweise die Kategorieangaben in Worterbuchern in Merkmalsbundel au osen (wie dies zum Beispiel GPSG mit den Merkmalen [N: +j-], [V: +j-] macht),
oder man kann statt \atomarer" Werte fur die Kasus nom, gen, dat, akk auch eine Beschreibung in
Termini von binaren Merkmalen [GOV: +j-], [OBL: +j-] (fur: \governed" und \oblique") verwenden.
35 Die Aufspaltung der Kasus- oder der Kategoriewerte erlaubt es zum Beispiel Generalisierungen uber
\oblique Kasus" zu formulieren (relevant fur lexikalische Regeln).
36 Fur HPSG und LFG (sowie fur andere Grammatiktheorien und deren Lexikon-Reprasentation) zeigt
[Ludewig 1995] Moglichkeiten der Rekodierung fur die Zwecke des Austauschs und der Wiederverwendung von lexikalischen Beschreibungen. Sie geht dabei davon aus, da die Wahl der Kodierungen
arbitrar ist, und da es primar praktische Grunde sind, auf deren Grundlage der Linguist oder Lexikograph die eine oder die andere Kodierung wahlt.
37 Zwischen zwei Listen kann es keine vollstandige Vererbung geben. Deswegen wird zwar (wie bei atomaren Featurestrukturen) eine partielle Ordnung der Listen durch Setzung de niert und berechnet,
jedoch mussen z.B. die Subkategorisierungslisten, auch wenn sie als Subtypen voneinander de niert
sind, in jeder De nition jeweils vollstandig angegeben werden.

keit, Konsistenzbedingungen uber die Listenelemente (= Tripel aus Rolle, grammatischer


Funktion und Phrasentyp) einmal in sehr genereller Weise als relationale Constraints
(vgl. oben, Abschnitt 3.2.3) zu formulieren; auerdem ist es im Sinne von Frame Semantics wunschenswert, in die Frame Element Group ggf. auch Adjunkte aufzunehmen, d.h.
auf feste Stelligkeit (mindestens im Prinzip) zu verzichten38 .
Die Wahl von Beschreibungen von Typen (im Gegensatz zu achen Attribut-WertBeschreibungen, beispielsweise durch Merkmale) hangt in der Regel mit der Unterscheidung zusammen, ob innerhalb bestimmter Beschreibungsdomanen Generalisierungen durch
hierarchische Modellierung ausgedruckt werden sollen, oder ob fur bestimmte Domanen
keine Hierarchisierung moglich oder sinnvoll ist, soda eine \ ache" Liste von Werten
ausreicht.

4.6.2 Klassi kation von Beschreibungsmitteln vs. Klassi kation von


lexikalischen Objekten: Rollen vs. Sorten
Mitunter hangt die Klassi kation von Beschreibungsmitteln mit der Klassi kation der
damit beschriebenen lexikalischen Objekte eng zusammen.
Ein Beispiel fur die Klassi kation von Beschreibungsmitteln ist die De nition der Rollen und Subrollen in der Modellierung der Wahrnehmungsverben in DELIS. Das Inventar
der Rollen, die fur die Kommunikationsverben benutzt wird (vgl. 4.68), ist lediglich eine
\ ache" Liste:
(4.68) speechact-role = sender | addressee | message | topic | instrument |
manner | language

| accent.

Demgegenuber sind die De nitionen der Rollen, die in der Modellierung von Wahrnehmungsverben verwendet werden, nach mehreren, zum Teil unterschiedlichen Kriterien
festgelegt worden. Auf der obersten Hierarchieebene werden drei Rollen unterschieden39
(vgl. 4.69):
(4.69) role = experiencer | percept | judgement.
Fur die Rolle experiencer gibt es eine Sortenrestriktion (\belebt", bzw. \menschlich",
vgl. Statement 4.70), sowie eine Subklassi zierung anhand der binaren Werte des Merkmals \INTENTION"
Die Unterscheidung zwischen den beiden Subtypen von experiencer, exper(iencer)-int(entional) vs. exper(iencer)-nonint(entional), fuhrt zur Unterscheidung
zwischen der Teilklasse der perception-Verben und der Teilklasse der attention-Verben:
als attention-Verben werden diejenigen Lesarten klassi ziert, bei denen ein experiencer beteiligt ist, der absichtlich handelt, um ein Wahrnehmungsereignis herbeizufuhren;
perception-Verben enthalten einen nicht-intentional handelnden experiencer. Die Unterscheidung auf der Ebene der Rollen \schlagt also auf Klassi zierung der lexikalischen
Objekte durch" (vgl. die zusammenfassende Abbildung 4.12, Seite 140).
(4.70) experiencer < role.
38 Diese Moglichkeit wird in der auf DELIS aufbauenden Modellierung von Hyponymen von EN [to] look
von [Atkins 1994] ausgenutzt.
39 Hier werden zum Teil Beschreibungen nochmals aufgenommen, die oben in den Abschnitten 4.2 und 4.3
schon eingefuhrt wurden. Der leichteren Lesbarkeit wegen, werden zum Teil auch TFS-Statements aus
diesen Abschnitten nochmals wiederholt und im Kontext der hier gefuhrten Diskussion interpretiert.

experiencer[SORT: human].
exper-i < experiencer.
exper-n < experiencer.
exper-i [INTENTION:
exper-n [INTENTION:

+].
-].

Die Subklassi zierung der Rolle percept beruht zum Teil auf anderen Kriterien: Die
percept-Rolle wird zunachst anhand eines internen Merkmals \[EXPECTED: +j-]" unterschieden in percept-actual und percept-target (4.71); Sortenrestriktionen spielen bei dieser Unterscheidung keine besondere Rolle. Das Merkmal \[EXPECTED: +]" ist
fur das Vorliegen von percept-target de nitionsrelevant. Dieses Merkmal wird als
\inharentes Merkmal" von percept-target, analog zur De nition von experiencer
durch das Merkmal \[INTENTION: +j-]" (vgl. oben 4.70) eingefuhrt.
(4.71) percept = percept-actual | percept-target.
percept-actual[SORT:entity | proposition].
percept-target[SORT:entity | proposition,
EXPECTED:
+].

Die Subtypen von percept-actual sind wiederum durch Sortenrestriktionen de niert


(vgl. 4.72 bis 4.75)40.
(4.72) percept-actual-ent < percept-actual.
percept-actual-ent[SORT: entity].

(4.73)
(4.74)
(4.75)

percept-actual-hum
< percept-actual.
percept-actual-hum[SORT: human].
percept-actual-event
< percept-actual.
percept-actual-event[SORT: event].
percept-actual-prp
< percept-actual.
percept-actual-prp[SORT: proposition,
FACTIVITY : factive,
DIRECTNESS: direct].

Der U bersichlichkeit halber wird die automatisch vom TFS-System kompilierte Typenhierarchie der Rollen in Abbildung 4.11, Seite 139 reproduziert.
Die Klassi zierung der percept-actual-Subtypen nach Sorten \schlagt" ebenfalls
auf die Subklassi zierung der semantischen Teilklassen von Wahrnehmungsverben \durch",
analog zu den Subtypen von experiencer:
 Bei den englischen perception-Verben gibt es zwei Subtypen, einmal diejenigen,
die eine Entitat als percept erlauben, zum anderen jene, die einen Sachverhalt als
percept zulassen41 .
40 Bei Sachverhalten werden zusatzlich zwei binare Merkmale fur FACTIVITY und DIRECTNESS miteingefuhrt, anhand von deren Werten Realisierungsentscheidungen getro en werden konnen (da-Satze
vs. In nitive vs. wh-Fragesatze).
41 Fur die franzosische Modellierung wurde diese Klassi kation von Baschung (personliche Mitteilung)
in Frage gestellt, weil nach der Beschreibungsintuition der franzosischen Linguisten jedes perceptionVerb, welches eine Entitat als percept zulat, auch einen Sachverhalt als percept erlaubt.

judgement-inferential
judgement

judgement-evaluative
judgement-veridical
percept-interpretation

role

percept

percept-target
percept-actual-ent
percept-actual

percept-actual-hum
percept-actual-prp

experiencer-nonint
experiencer
experiencer-int

Abbildung 4.11: Hierarchie der Frame-Semantics-Rollen aus der Modellierung von Wahrnehmungsverben in DELIS
Bei den attention-Verben gibt zwei mogliche Subklassen: einerseits diejenigen, die
ein percept-actual erlauben, andererseits jene, die ein percept-target verlangen.
 Verben, die ein percept-actual haben, konnen wiederum nach den Sortenrestriktionen aufgegliedert werden, welche fur die percepts gelten. Beispielsweise kann
EN watch mit einem event gebraucht werden, dagegen konnen see und look nur
mit einer Entitat verwendet werden (vgl. 4.72, 4.74).
Die hier informell beschriebenen Teilhierachien fur perception-Verben und attentionVerben entsprechen ungefahr dem Schema in Abbildung 4.1242. In der Abbildung wurden
jeweils die distinktiven Eigenschaften fur die Klassen angegeben, und es zeigt sich, da die
Subklassi zierung sowohl der perception-Verben als auch der attention-Verben ohne
percept-target jeweils den Sortenrestriktionen folgt. Die Klassi zierung der Verben
spiegelt also die Sortenrestriktionen wider.
Der Lexikograph kann also durch die Einfuhrung von Unterscheidungen im Beschreibungsvokabular (hier der Sortenhierarchie) gezwungen sein, analoge Unterscheidungen
auch in der Modellierung der linguistischen Objekte einzufuhren. Dies mag redundant erscheinen, dient aber zunachst dazu, die relevanten Unterscheidungen zu erfassen. Da aber
alle Klassi zierungen auf allen Beschreibungsebenen explizit sein mussen (TFS erlaubt nur
Typen mit expliziten Namen), sieht die Modellierung aufwendig aus. Sie konnte vereinfacht werden, wenn die volle Beschreibungsmachtigkeit von Kreuzklassi kation verfugbar
ware.


4.6.3 Subklassi zierung nach zusatzlichen Merkmalen?

In der englischen Modellierung wurde auer der Klassi zierung der Rollen eine Beschreibung einer Reihe von Verben nach zusatzlichen \inharenten" Merkmalen vorgenommen.
Auf der Grundlage der Arbeiten von [Atkins 1994] werden binare Merkmale dazu ver42 Die vollstandige Hierarchie der zweistelligen Lesarten (allerdings am Beispiel des Franzosischen) ist
in Abbildung 4.5 angegeben.

perc-act-ent

perception
exper-n

percept
[SORT: entity]
perc-act-prp

percept
[SORT: propos.]
att-act-ent
p-target

percept
attention
exper-i

[SORT: entity]
att-prp
p-actual

percept
[SORT: propos.]
att-hum

percept
[SORT: human]

Abbildung 4.12: Teilhierarchie der perception- und attention-Verben


wendet, die Kohyoponyme von EN see, voneinander zu trennen. Die von [Atkins 1994]
beschriebenen Verben sind in Tabelle 4.14 zusammengestellt.
Die Unterscheidung dieser Quasisynonyme erfolgt bei [Atkins 1994] anhand einer Beschreibung der moglichen Dauer des Ereignisses43 , sowie anhand der jeweils mit den Werten \+" oder \{" versehenen Attribute \Interest", \Salience", \Distance" als spezi schen Eigenschaften der Fullung der percept-Rolle.
Dabei bezeichnet das Merkmal \Interest", da ein percept fur den experiencer
interessant ist, das Merkmal \Salience", da das percept hervorsticht und deswegen
leicht wahrgenommen werden kann, und das Merkmal \Distance", da das percept
vom experiencer weit entfernt ist (jeweils, wenn die Merkmale den Wert \+" haben).
Entsprechende Beschreibungen mit dem Wert \{" sollen das Gegenteil ausdrucken. Die
Verteilung der Attribute und ihrer Werte fur die einzelnen Verben ist in Tabelle 4.14
zusammengestellt.
Ein Verb wie behold soll so beschrieben werden, da es nur in Situationen angewendet
werden kann, wo ein langandauernder, intervallartiger Vorgang beschrieben wird, in welchem ein fur den experiencer unmittelbar interessantes und hervorstechendes percept
eine Rolle spielt, welches weit vom experiencer entfernt ist. Mit behold kann also nicht
eine kurze Wahrnehmung eines unmittelbar vor dem experiencer sichtbaren Gegenstands
bezeichnet werden. Dagegen ist see als hinsichtlich der in der Tabelle erfaten Merkmale
unmarkiert dargestellt, d.h. abhangig vom Kontext soll es moglich sein, dem Verb eine
Interpretation zu geben, in welcher es einen lang andauernden intervallartigen oder einen
kurz andauernden punktuellen Vorgang bezeichnet. Gleichermaen kann das wahrgenommene percept nahe beim experiencer oder weit entfernt sein, usw.
Man kann sich die Frage stellen, ob es aus lexikographischer Sicht sinnvoll ist, diese
Merkmale wiederum als Grundlage fur eine weitere Aufgliederung des Gegenstandsbereichs heranzuziehen. Wenn man dies tut, kann man die Merkmale als fur Untertypen
der percept-Rolle konstitutiv au assen und weitere Untertypen von percept kreieren, je
43 Glimpse bezeichnet ein punktuelles Ereignis behold bezeichnet einen uber ein Zeitintervall ausgedehnten Vorgang, alle anderen Verben konnen sowohl intervallartige als auch punktuelle Ereignisse
benennen.

Verb
see
notice
glimpse
espy/spy
spot
behold
sight
descry
witness

Event feature
duration

longjshort
longjshort
short
longjshort
longjshort
long
longjshort
longjshort
longjshort

Percept features

interest salience distance

+j{
+
+j{
+
+
+
+
+
+

+j{
+j{
+j{
+j{
{
+
+j{
{
+j{

+j{
+j{
+j{
+j{
+j{
+
+
+
+j{

Tabelle 4.14: Event duration und percept-Features bei EN see und seinen Kohyponymen nach [Atkins 1994]
nach den Werten fur \Distance", \Salience" und \Interest". Eine in diesem Sinne
orthodoxe Modellierung in TFS mute also die betro enen Rollen (percept-target
und percept-actual) weiter subklassi zieren, nach den jeweils vorhandenen Merkmalen. Hieraus wurde sich eine sehr feinkornige und nicht unbedingt ubersichtliche Subklassi zierung der Rollen ergeben44 .
Man kann nun annehmen, da es die Aufgabe des Lexikographen sei, festzulegen, welche Klassi zierungen gewissermaen \Haupt-Klassi zierungen" sind, und welche anderen
\nebengeordnet" sein sollen. In der Tat wird der Lexikograph nicht aussagen wollen, da
alle Merkmale, die den lexikalischen Einzelbeschreibungen zugewiesen werden, gleichermaen die Domane der lexikalischen Objekte partitionieren und damit im eigentlichen Sinne
den beschriebenen Wortschatz subklassi zieren45 . Der Lexikograph mute also, nach dieser Ansicht, die Verantwortung fur die Entscheidung ubernehmen, welche Bestandteile
einer Beschreibung von Lexemen die Lexem-Menge in der Tat partitionieren und als solche relevante (und im TFS-Lexikon abfragbare) Teilmengen des Wortschatzes de nieren,
und welche anderen Beschreibungen dies nicht tun sollen.
Sobald diese Art von Entscheidung in die Modellierung ein iet, sieht es aus, als sei
44 Bei der Einfuhrung von Sortenrestriktionen uber die percept-Rolle wurde auerdem die Aufteilung
der Rollen nach Sorten auch auf die Aufteilung der semantischen Klassen gespiegelt. Wegen der Vielzahl neu zu etablierender Unterscheidungen und deren \geringerer Klassi kations-Relevanz" mochte
man aber im Fall von Interest, Salience und Distance auf die Duplizierung von Klassi kationen
der Beschreibungsmittel in der Klassi zierung der beschriebenen Objekte verzichten.
45 Eine solche \einheitliche" Sicht auf Klassi zierungen, ohne \Haupt-" und \Nebenmerkmale", liegt
(in extremer Weise) der Schlufolgerung zugrunde, die z.T. aus Arbeit der Forschungsgruppe um
Maurice Gross zur syntaktischen Beschreibung der franzosischen Verben (vgl. Methodes en syntaxe,
1975) gezogen worden ist; es wurde behauptet, da sich fur rund viertausend Verben uber dreitausend
syntaktische Subkategorisierungsklassen ergeben. Diese Interpretation von ist nur moglich, wenn man
alle Beschreibungskriterien auf dieselbe Ebene stellt, ohne Unterscheidung zwischen primaren Klassi kationsdimensionen und \Nebene ekten". Beispielsweise konnte die Variation in der syntaktischen
Realisierung von semantisch gleichwertigen Verberganzungen als ein \Nebene ekt", die semantische
Klassi zierung selbst als zentral betrachtet werden; diese Sichtweise ist allerdings dem Ansatz von
Gross entgegengesetzt.

die Forderung nach Zugri sneutralitat der Worterbucher verletzt, bzw. das ihr zugrundeliegende Prinzip, nach welchem vermieden werden soll, da eine Beschreibungsdimension
Prioritat uber die anderen erhalt (vgl. Abschnitt 3.2.5). Dieses Prinzip mu naturlich
innerhalb der Teilbeschreibungen, beispielsweise innerhalb der semantischen Teilbeschreibungen, in analoger Weise weitergelten: dann mu die lexikalische Modellierung zunachst
eine gleichrangige Behandlung samtlicher Beschreibungsdomanen zulassen, und erst die
jeweilige Anfrage wurde entscheiden, welche Teilbeschreibungen in einer gegebenen Situation uberhaupt angezeigt werden sollen.
Hier tre en zwei gegensatzlich erscheinende Forderungen aufeinander:
 Verzicht auf eine beliebig feine (und im Extremfall vollig irrelevante) hierarchische
Aufgliederung einer Domane (realisierbar durch die Einfuhrung von \Haupt- und
Nebenklassi kationen"); und
 Homogene Behandlung aller Beschreibungen nach dem Architekturprinzip der Zugri sneutralitat.
Um die beiden Forderungen sinnvoll vereinen zu konnen, mussen Worterbucher als multiple Hierarchien modelliert werden; und es mu die Moglichkeit geben, da einzelne
Beschreibungsdomanen nebeneinandergestellt und kreuzklassi ziert werden. In einem solchen Fall wurde man darauf verzichten, lexikalische Beschreibungen in Form einer einzigen
Hierarchie anzulegen, die dann besonders tief und besonders feinkornig sein mute. Man
wurde statt dessen Teilbeschreibungen aus verschiedenen Teilhierarchien durch Kreuzklassi kation kombinieren46.
Die zwei Modellierungsoptionen sind beispielhaft in der Abbildung 4.13 nebeneinandergestellt. Links in Abbildung 4.13 ist eine Hierarchie gezeigt, bei der drei perceptSubtypen, p1, p2 und p3, jeweils Subtypen mit binaren Merkmalen von Salience, Interest und Distance, S, D und I haben. Davon hat jeder Subtyp Untertypen, je nach
dem Attributwert. Rechts in der Abbildung ist eine Losung gezeigt, die von der Kreuzklassi kation Gebrauch macht. Fur den Lexikographen ist eine Lexikonarchitektur vorzuziehen, bei der mehrere Teilhierarchien kreuzklassi ziert werden konnen, da in diesem
Fall die einzelnen Teilhierarchien leichter uberschaubar bleiben.
Die Forderung nach vollstandiger Kreuzklassi kation wurde oben in Abschnitt 4.6.2
schon einmal kurz angesprochen. Sie stellt ein formales Desideratum fur die Benutzung
eines constraint-basierten Formalismus wie TFS als lexikalische Reprasentationssprache
dar.

46 Vgl. oben die Diskussion in Abschnitt 3.1.2.3. Die formalen Implikationen einer solchen Forderung
werden in [Emele 1996] diskutiert.

percept

p1

percept

p2

p3

p1

p2

percept-properties

p3
I

S D I

S D I

S D

S
+

D
+

Abbildung 4.13: Kreuzklassi kation oder hierarchische Modellierung?

Kapitel 5
Abfrage von constraint-basierten Lexika
In Abschnitt 3.1 wurden die fur die Reprasentation lexikalischer Information relevanten
Eigenschaften von TFS beschrieben. Darauf aufbauend wurde in Abschnitt 3.2 ein Vorschlag fur eine Architektur monolingualer Worterbucher gemacht, welche mit den Mitteln
von TFS reprasentiert werden konnen. Beispiele fur solche Worterbuchfragmente sind in
Kapitel 4 gegeben worden.
Ein nach diesem Prinzipien organisiertes und reprasentiertes elektronisches Worterbuch mu auch abgefragt werden konnen. Der Forderung nach Multifunktionalitat entsprechend, sollen sowohl \menschliche Benutzer"1 als auch sprachverarbeitende Systeme
mit Informationen aus dem Worterbuch versorgt werden:
 Bei der Erganzung und Erweiterung des Worterbuchs u
berpruft der Lexikograph
den Bestand an Beschreibungen, welcher in einem bestehenden Worterbuch bereits
realisiert ist; dabei sollen einzelne Eintrage oder Mengen von Eintragen nach verschiedenen Kriterien abgefragt werden konnen (Ad-hoc-Abfrage).
 Das Worterbuch soll in einem System der maschinellen Sprachverarbeitung, im vorliegenden Zusammenhang in einem maschinellen U bersetzungssystem benutzt werden. Die Worterbucheintrage mussen hierzu in das Format der Anwendung ubersetzt
(kompiliert) und dann zusammen mit den Grammatiken der jeweiligen Sprachen
verarbeitet werden.
Auf eine detaillierte Darstellung der Kompilierung von Lexikoninformation fur eine Systemanwendung wird hier verzichtet. Die Prinzipien der Kompilierung werden an einem
etwas anschaulicheren Beispiel diskutiert: Da die TFS-Reprasentation nicht primar fur
den lexikographischen Benutzer gedacht ist, wird der Export in Formate beschrieben,
welche dem ublichen Layout der Makro- und Mikrostruktur gedruckter Worterbucher
ahnlich sind. Diese Verfahren werden in Abschnitt 5.2 beispielhaft gezeigt: dort wird dargestellt, wie die Information, welche in den DELIS-Worterbuchern enthalten ist, jeweils
fur die Zwecke eines semasiologischen, eines onomasiologischen und eines Subkategorisierungsworterbuchs kompiliert werden kann. Gleichzeitig wird gezeigt, wie die Anforderung
an ein multifunktionales Worterbuch erfullt werden kann, da die Abbildungsregeln zwischen der multifunktionalen Ressource und einzelnen Zielanwendungen gegenuber A nderungen im Datenbestand und in der Klassi zierung einzelner Daten robust zu sein haben2 .
Der Export von Worterbuchinformation in ein bestimmtes Zielformat setzt zunachst
eine exible Abfrage der TFS-Reprasentation voraus. Oben, in Abschnitt 3.1.4.2, wurden
die Prinzipien der Ad-hoc-Abfrage skizziert. Damit die Moglichkeiten des Exports aus
1 Der Terminus \menschlicher Benutzer" (\human user") ist unglucklich, wird aber in der Diskussion oft
benutzt. Hier wird mitunter von \interaktiver Abfrage" gesprochen: wie bei einer Datenbank kann der
Benutzer das Worterbuch am Rechner abfragen; die Worterbucheintrage werden auf dem Bildschirm
ausgegeben. Die \Interaktion" besteht darin, da der Lexikograph Anfragen formuliert, mit deren
Hilfe er die gewunschte Information anzeigen lat.
2 Vgl. die entsprechende Forderung in Abschnitt 2.3, Punkt 3.

TFS-Worterbuchern deutlich werden, werden zunachst, in Abschnitt 5.1, Beispiele fur die
Ad-hoc-Abfrage vorgestellt. Hierbei wird neben den DELIS-Worterbuchfragmenten auch
ein Kollokationsworterbuch verwendet, das in TFS kodiert wurde und anhand von dessen
Strukturierung interessante Moglichkeiten der Abfrage von TFS gezeigt werden konnen.
Die interaktive Abfrage von TFS-Lexika in lexikographischen Anwendungen unterscheidet sich zum Teil von der Art, wie dieselben Lexika bei der Benutzung in einem
NLP-System abgefragt werden sollen. Auf die Unterschiede zwischen den beiden Abfragemodi wird eingegangen in Abschnitt 5.3 und speziell in Abschnitt 5.3.2 ist dieser
Diskussion gewidmet3.

5.1 Ad-hoc-Abfrage im TFS-Lexikon


In Abschnitt 3.1.3.1 wurden die Constraint-basierten Eigenschaften von TFS beschrieben.
Zu ihnen gehort die Moglichkeit, in TFS reprasentierte Information mit beliebig unterspezi zierten Merkmalsstrukturen abzufragen. Diese Abfragemoglichkeit wird als \Ad-hocAbfrage" bezeichnet.

5.1.1 Ad-hoc-Abfrage in strati kationellen Lexika

Die Ad-hoc-Abfrage kann bei der interaktiven U berprufung oder Sichtung von Lexikoneintragen ausgenutzt werden. Die DELIS-Worterbucher beruhen auf einem strati kationellen Beschreibungsmodell: es gibt separate Teilbeschreibungen fur die einzelnen
linguistischen Beschreibungsebenen, beispielsweise fur die syntaktische und die semantische Beschreibung. Lexikoneintrage von Kohyponymen enthalten z.B. teilweise gleiche
semantische Beschreibungen; wird mit unterspezi zierten semantischen Attribut-WertBeschreibungen angefragt, liefert das System alle Worterbucheintrage zuruck, welche die
in der Anfrage enthaltene Teilbeschreibung enthalten oder von ihr subsumiert werden,
d.h. alle Kohyponyme. Ohne die Einfuhrung spezieller Beschreibungsmittel, z.B. expliziter (vom Lexikographen eingefuhrter und kontrollierter) Verweise fur die in der lexikalischen Klassenhierarchie darstellbaren Relationen, d.h. Synonymie und Hyponymie
bzw. Hyperonymie, lassen sich Daten aus dem Worterbuch abfragen, die diese Relationen berucksichtigen. Die Relationen konnen problemlos abgefragt werden, weil sie in der
TFS-Spezialisierungshierarchie implizit modelliert sind.
Anhand der im DELIS-Projekt entwickelten Beschreibungen fur den Gegenstandsbereich der Wahrnehmungsverben (vgl. oben die Beschreibung in Kapitel 4) werden im
folgenden einige Beispiele fur Ad-hoc-Abfrage diskutiert.
In der Anfrage 5.14, die sich auf eine teilweise gefullte Datenbasis mit niederlandischen
Verben der Wahrnehmung bezieht, wird nach Lexikoneintragen gefragt, welche der semantischen Klasse perc (fur perception) angehoren und gleichzeitig der syntaktischen Klasse
v-s-onp (f
ur Verben mit Subjekt und Objekts-NP). Eine solche Anfrage ist beispielsweise
einzugeben, wenn der Worterbuchentwickler sich vergewissern will, welche Verben einer
3 In diesem Kapitel wird zum Teil auf die monolingualen lexikalischen Modellierungen aus Kapitel
4 zuruckgegri en. Mitunter werden auch Ausschnitte aus der Modellierung oder Varianten davon
nochmals wiederholt. Die Redundanz, die hierbei entstehen mag, erspart das Hin- und Herblattern:
die Beispiele fur die Abfrage sollen hier im relevanten Zusammenhang dargestellt werden, selbst wenn
gelegentlich Details wiederholt werden sollten.
4 Notation: Anfragen werden in TFS als Terme mit vorangestelltem Fragezeichen (\?") notiert.

bestimmten semantischen Klasse, die gleichzeitig eine bestimmte syntaktische Konstruktion haben, bereits im Worterbuch eingetragen sind. Die Anfrage 5.1 konnte wie folgt
paraphrasiert werden: \Gesucht sind alle Verben der semantischen Klasse perc, die ein
Subjekt und eine Objekts-Nominalphrase subkategorisieren"5 :
(5.1) ?perc&v-s-onp.
Ein Teil des Ergebnisses, welches vom System zuruckgegeben wird, ist in 5.2 wiedergegeben: das Worterbuchfragment enthalt u.a. eine Lesart des niederlandischen Verbs horen
(\horen"), welche die in 5.1 angegebenen Bedingungen erfullt6:
(5.2) horen-perc-ent
[LEMMA:
MODALITY:
FEG:

"horen",
aud,
<fe

[FE:
GF:
PT:

experiencer-nonint[INTENTION: -],
subj,
np]

[FE:
GF:
PT:

percept-actual-ent,
comp,
np]>].

fe

In den Anfragen konnen beliebige Teilbeschreibungen auch beliebig kombiniert werden:


wenn das Worterbuchmodell die syntaktischen und semantischen Teilbeschreibungen voneinander trennt (wie es hier vorgeschlagen wird), kann es z.B. fur den Worterbuchentwickler
interessant sein, alle Beispiele au isten zu lassen, bei denen das erste Verbargument eine
bestimmte semantische Beschreibung hat, das zweite eine spezielle syntaktische Realisierung. Man kann jeweils darauf verzichten, die restlichen Teilbeschreibungen fur das erste
und zweite Argument anzugeben. Solche Anfragen unterscheiden sich grundlegend von der
in gedruckten Worterbuchern und in vielen Datenbanken ublichen bzw. einzig moglichen
Abfrage nach (alphabetisch sortierten) Lemmata.
Ein Beispiel hierfur ist die Anfrage 5.3: dort wird nach Lesarten gesucht, bei denen das
erste Argument auf der Ebene der semantischen Rollen als experiencer beschrieben ist7.
U ber die Rolle des zweiten Verbarguments wird gar nichts ausgesagt; wurde die Anfrage
so an TFS gegeben, wurden samtliche Verben zuruckgegeben, deren erstes Argument
ein experiencer ist, gleich welchen Subtyps. Die Anfrage in 5.3 wird dadurch weiter
eingeschrankt, da fur das zweite Verbargument, unabhangig von seiner Rolle, eine Reali5 Die Ausgabe erfolgt in der ublichen DELIS-Notation von Worterbucheintragen, mit den Attributen LEMMA, MODALITY (fur die jeweilige Wahrnehmungsmodalitat, mit den Werten aud(itiv),
olf(aktorisch), vis(uell), gus(tativ) und tac(til), sowie FEG (als Abk
urzung von Frame Element
Group). Details sind in Abschnitt 4.1 angegeben.
6 Auerdem die perc-Lesarten von zien (Zij ziet een auto.), ruiken (Hij rook zijn slechte adem.) und
proeven (U proeft de kruiduagel niet.). Die Lesarten werden nacheinander ausgegeben.
7 Die experiencer-Rolle hat im DELIS-Modell Subtypen, die danach unterschieden werden, ob eine
absichtliche (intentionale) Beteiligung des Mitspielers an der Situation vorliegt (z.B. im Falle von
Verben wie DE lauschen, horchen), oder ob eine nicht-intentionale, unabsichtliche Beteiligung vorliegt
(im Fall von DE horen): exper-i vs. exper-n, vgl. oben Abschnitt 4.2.1.1, Seite 103. Im Fall von
5.3 hat der Lexikograph darauf verzichtet, diese Unterscheidung zu machen: die Anfrage enthalt den
(hinsichtlich Intentionalitat unterspezi zierten) Typ experiencer.

sierung als dat-clause (da-Satz) gefordert wird. Schlielich wird in der Anfrage noch
verlangt, da die Wahrnehmungsmodalitat \auditiv" sein soll8:
(5.3)
?[FEG:
<fe[FE: experiencer] fe>]
&[MODALITY: aud]
&[FEG:
<fe fe[PT: dat-cl]>].

Das Ergebnis (vgl. 5.4), welches nach der Evaluierung der Anfrage 5.3 zuruckgegeben
wird, enthalt eine Lesart des Verbs horen, die einen nicht-intentionalen experiencer und
ein propositionales percept aufweist. Die grammatische Funktion, die in der zugrundeliegenden lexikalischen Beschreibung fur den dat-Satz angesetzt wurde, ist COMP.
(5.4)
horen-prp-cl
[LEMMA:
MODALITY:
FEG:

"horen",
aud,
<fe
[FE:
GF:
PT:
fe
[FE:
GF:
PT:

experiencer-nonint[INTENTION: -],
subj,
np]
percept-actual-prp,
comp,
dat-cl[COMPLEMENTIZER: dat]]>].

Das Beispiel 5.4 wurde identi ziert, weil es die in der Anfrage angegebenen strukturellen
Constraints erfullt9. In der Anfrage 5.1 wurden Klassennamen als Abfragekriterium verwendet (semantische Klasse perc, syntaktische Klasse v-s-onp), in 5.3 dagegen AttributWert-Strukturen; beide Verfahren zur Angabe von Constraints sind moglich, beide konnen
kombiniert werden.

5.1.2 Ad-hoc-Abfrage mit Variablen

Die Ad-hoc-Abfrage kann auch dazu benutzt werden, aus einer Datensammlung Belege zu
extrahieren, die hinsichtlich bestimmter durch Attribut-Wert-Paare beschriebener Kriterien identisch sind, ohne da der Benutzer Werte fur die als Abfragekriterium dienenden
Attribute kennt oder anzugeben braucht; er kann Variablen fur Attributwerte verwenden.
Hierfur ein Beispiel: das TFS-System wurde zur Reprasentation des franzosischen Kollokationsworterbuchs von [Cohen 1986] verwendet; dabei wurden Kollokationsangaben
als TFS-Typen de niert. Das Worterbuch enthalt Nomen-Verb-Kollokationen, NomenAdjektiv-Kollokationen und Nomen-Nomen-Kollokationen der franzosischen WirtschaftsFachsprache (Gegenstandsbereich: Borse, Konjunktur). Fur die Zwecke der vorliegenden
Untersuchung wurden die Nomen-Verb-Kollokationen aus dem Worterbuch in TFS reprasentiert10 .
8 Die Reihenfolge der Constraints in der Anfrage ist unerheblich; die einzelnen Constraints werden hier
als Konjunktion von partiellen TFS-Statements angegeben.
9 Lat man den \MODALITY"-Constraint weg, so werden analoge Lesarten fur zien, proeven, ruiken mit
ausgegeben.
10 Diese Arbeit wurde zusammen mit Regina Steding durchgefuhrt: sie hat die Kollokationsangaben
aus [Cohen 1986] nach dem hier entwickelten und unten in Abbildung 5.3 schematisch dargestellten
TFS-Modell erfat und damit die Datengrundlage fur die hier beschriebenen Experimente gescha en.
Dafur herzlichen Dank!

Hier sollen die Moglichkeiten der Ad-hoc-Abfrage dieses Worterbuchs gezeigt werden;
dazu ist es allerdings notig, erst kurz die relevanten Eigenschaften des Worterbuchs von
[Cohen 1986] zu beschreiben. Auf dieser Grundlage kann die Abfrage diskutiert und aus
lexikographischer bzw. linguistischer Sicht motiviert werden. Die Ergebnisse sind sowohl
im Hinblick auf ihren Beispielcharakter fur die Verfahren der Ad-hoc-Abfrage, als auch
aus linguistisch-lexikographischer Sicht interessant.
Das Worterbuch von [Cohen 1986] enthalt syntaktische und semantische Beschreibungen der Kollokationen. Die Eintrage sind im gedruckten Worterbuch als Tabellen
reprasentiert (vgl. das Schema der Eintrage in Abbildung 5.1). Ein Beispieleintrag (s.v.
FR emprunt) ist in Abbildung 5.2 abgedruckt.
Base-Lemma
syn 1
c-meaning

c-meaning

syn 2

...

syn n

...
c-meaning

Abbildung 5.1: Schema der Eintrage aus [Cohen 1986]


Die Lemmata in [Cohen 1986] sind nominale Kollokationsbasen (im Sinne von [Hausmann
1989], [Hausmann 1979]). In der TFS-Kodierung der Eintrage wurden fur jede Kollokationsbasis (Substantiv, in der TFS-Notation von Abbildung 5.3 angegeben unter dem
Attribut \NOMEN:") je zwei Attribute de niert, eines fur Kollokationen, in denen das Substantiv Subjekt eines als Kollokator fungierenden Verbs ist (Attribut \SUBJ:"), und ein
zweites fur Kollokationen, in denen das Substantiv als Objekt oder anderes Komplement
des Verbs auftritt (Attribut \OBJ:", vgl. Abbildung 5.3).
Da das Worterbuch von [Cohen 1986] nicht nur Subjekt-Verb-Kollokationen und VerbObjekt-Kollokationen unterscheidet, sondern daruber hinaus fur beide Untertypen jeweils eine Unterscheidung nach Aktionsart-Typen einfuhrt, wurden zusatzliche Attribute fur Anfang, Zunahme, Fortdauer, Abnahme und Ende eines Prozesses eingefuhrt
(hier in Anlehnung an Cohens Terminologie angegeben als \DEBUT:", \CROISS(ance):",
\INDET(ermine:)", \DECLIN:" und \FIN:"). Diese Aktionsartunterscheidungen werden jeweils als Attribute kodiert, die unter den syntaktischen Teilbeschreibungen fur SUBJ:
und OBJ: eingebettet sind. Als Werte dieser semantisch motivierten Attribute sind die
Lemmata der Kollokatoren eingetragen worden.
Abbildung 5.3 stellt die TFS-Kodierung der Nomen-Verb-Kollokationen aus dem Eintrag s.v. emprunt dar, der in der Worterbuchtypischen Tabellenform in Abbildung 5.2
abgebildet ist.
Bei der Abfrage konnen nun Paare oder Mengen von Substantiven aus dem Lexikon
gesucht werden, fur den Ausdruck derselben Art von Proze und Aktionsart dieselben
Kollokatoren auswahlen; zum Beispiel alle Substantive, die jeweils dieselben Kollokatoren
fur die Beschreibung der Zunahme oder der Abnahme eines Prozesses haben, und zwar
jeweils dieselben intransitiven Verben, zu denen die Substantive als Subjekt auftreten,
und gleiche transitive Verben, zu denen die Substantive als Objekt auftreten. Es ist dabei
nur notwendig, in der TFS-Anfrage die Gleichheit der Kollokatoren-Lexeme zu fordern,

emprunt
debut
croissance

noms

verbes:
verbes:
emprunt = SUBJ emprunt = OBJ
emission
emettre
lancement
lancer
accroissement s'accro^tre
accro^tre
augmentation augmenter
augmenter
monter

indetermine
declin
baisse
fin

diminution
reduction

baisser
diminuer

reduire
restreindre

adjectifs
considerable
eleve
gros
petit

clore
liquider
rembourser
restituer

Abbildung 5.2: Worterbucheintrag aus [Cohen 1986], s.v. emprunt, in Tabellenform


jedoch nicht, anzugeben welcher Kollokator oder welche Menge von Kollokatoren jeweils
tatsachlich verglichen wird (vgl. die Tags #2 und #4 in der Notation der Anfrage in
Abbildung 5.5). In ahnlicher Weise wird gefordert, da die Nomina, die verglichen werden,
von unterschiedlichem Typ sein sollen (die Tags #1 und #3 unterscheiden sich11 ).
Beim TFS-Evaluierungsproze werden unterschiedliche Eintrage verglichen; es wird
jeweils die Identitat der Attributwerte getestet und zwar im Beispielfall fur jede zwei vergleichbaren Worterbucheintrage. Auf der Grundlage des Eintragsschemas aus Abbildung
5.1 wird in Abbildung 5.4 dieser Vergleich von Eintragen symbolisiert: es wird \an derselben Stelle" in den Eintragen nach identischen Werten gesucht, ohne da der Lexikograph
aktuelle Werte vorgeben mu: die Werte werden durch Variablen reprasentiert und bleiben
ansonsten unspezi ziert.
Als Evaluierungsresultate werden jeweils Attribut-Wert-Strukturen ausgegeben, die
zwei Lexikoneintrage enthalten, einen unter dem Attribut F: (fur \ rst"), einen unter
dem Attribut S: (fur \second"). Die Ergebnisse, die mit dieser Art von Worterbuchabfrage
erzielt werden, sind Mengen von hinsichtlich der Kollokatoren (oder allgemein: hinsichtlich bestimmter Attribut-Wert-Paar-Beschreibungen) vergleichbarer Paare von Worterbucheintragen.
Die linguistische Motivation fur die oben beschriebenen Anfragen ist folgende: man
will uberprufen, ob syntaktisch-semantische Klassi zierungen mit der Auswahl der Kollokatoren parallellaufen. Bei der Anfrage in Abbildung 5.5 wurde beispielsweise nach Basen
gesucht, die dieselben Kollokatoren zum Ausdruck der Zunahme eines Prozesses haben,
11 Man kann in der hier benutzten Version von TFS nur Unterschiedlichkeit auf der Token-Ebene fordern:
#1 6= #3. Typidentitat wird dadurch nicht verhindert, d.h. man erhalt als \Noise" bei der Abfrage
auch Resultate, wo dasselbe Nomen als Wert von F: und von S: auftritt. Tokenidentitat wird durch
die Bedingung im Statement comp-so (vgl. Abbildung 5.5) verhindert.

bsp[NOMEN:
SUBJ:

OBJ:

emprunt,
[DEBUT :
CROISS:
INDET :
DECLIN:
FIN
:
[DEBUT :
CROISS:
INDET :
DECLIN:
FIN
:

none,
s-accroitre | augmenter | monter,
none,
baisser | diminuer,
none],
emettre | lancer | ouvrir,
accroitre | augmenter,
none,
reduire | restreindre,
clore | liquider | rembourser | restituer]].

Abbildung 5.3: Worterbucheintrag aus [Cohen 1986]: TFS-Notation fur den Eintrag s.v.
emprunt (vgl. Abbildung 5.2)

Abbildung 5.4: Ad-hoc-Abfrage mit Variablen: Schema der Suche in der TFS-Reprasentation von Eintragen aus [Cohen 1986] (vgl. Abbildung 5.5)
jeweils separat fur Subjekt-Verb-Kollokationen bzw. Verb-Objekt-Kollokationen. Beispiele
fur die Ergebnisse dieser Art sind in der Tabelle 5.1 auf Seite 153 zusammengestellt.
Als Beispiel dafur, wie die Tabelle 5.1 zu lesen ist, konnte man die Zeile 2 folgendermaen paraphrasieren: \Die Nomina action, change, indice, titre, valeur mobiliere
konnen mit den Kollokatoren monter oder augmenter zum Ausdruck der Zunahme des
durch die Basen ausgedruckten Wertes kombiniert werden (wobei die Verben intransitiv
gebraucht werden); die Nomina konnen deswegen in eine Gruppe zusammengefat werden; das Verb baisser (itr.) wird von allen Nomina dieser Gruppe zum Ausdruck eines
Ruckgangs verwendet." Sinngema fur Zeile 3: \Die Kollokationsbasen economie, balance des paiements gehoren in eine Gruppe; sie wahlen dieselben Kollokatoren zum
Ausdruck von Zunahme und Ruckgang aus."
Die Ergebnisse lassen sich wie folgt interpretieren:
<

>

<

>

Aus der Sicht der Ad-hoc-Abfrage von TFS: bei der Suche nach Basen mit gleichen
Kollokatoren wurden weder Basen- noch Kollokatoren-Lemmata vorgegeben. Viel-

comp-so[F: [NOMEN:

#1,
SUBJ:
OBJ:
S: [NOMEN: #3,
SUBJ:
OBJ:

[CROISS:
[CROISS:

#2],
#4]],

[CROISS:
[CROISS:

#2],
#4]]]:- #1 =/= #3.

Abbildung 5.5: Eine TFS-Abfrage mit Variablen, zum Vergleich von je zwei Eintragen aus
[Cohen 1986]

mehr wurden fur samtliche lexikalischen Werte Variablen eingesetzt und lediglich
Lexikoneintrage mit analogen Mustern des Kollokationsverhaltens gesucht. Dennoch ergeben sich Gruppen von Substantiven (in der Tabelle 5.1 \Nomengruppen"
genannt), die dieselben Kollokatoren aufweisen. Es wurde dabei alternativ nach einzelnen Kollokatoren, oder nach Kollokatorengruppen gesucht. Jede Zeile der Tabelle
5.1, Seite 153, beschreibt eine Gruppe von Nomina, die gemeinsame Kollokatoren
haben.
Aus lexikographischer Sicht:
{ Einige Kollokatoren scheinen relativ unspezi sch fur groe Teile der Domane
(Borsensprache) verwendbar zu sein. Hierher gehoren s'accro^tre/accro^tre und
augmenter.
{ Andere Kollokatoren sind relativ spezi sch. Beispielsweise wahlen die Substantive FR hausse, baisse, mouvement, progression, recul, repli, reprise die Kollokatoren (s')ampli er, (s')accelerer, (s')accentuer aus, um eine Zunahme auszudrucken12 . Dieselbe Gruppe von Nomina nimmt homogen (se) ralentir, bzw. die
transitiven Verben limiter qc., freiner qc. um eine Abnahme auszudrucken. Fur
diese Gruppe lassen sich gemeinsame semantische Eigenschaften identi zieren:
Alle Substantive denotieren A nderungen in einer wirtschaftlichen Entwicklung,
oder eine wirtschaftliche Entwicklung selbst13 .

5.1.3 Nutzung der Ad-hoc-Abfrage in Worterbuchanwendungen { Vergleich


mit Datenbanken
Die hier anhand von Beispielen beschriebenen Moglichkeiten der Ad-hoc-Abfrage sind fur
die Worterbuchentwicklung und fur die U berprufung von Worterbucheintragen durch den
Lexikographen sehr wichtig: Die Anfragen konnen in demselben Formalismus gestellt werden, in dem die Beschreibungen reprasentiert sind und konnen beliebig unterspezi ziert
sein.
12 Dabei steht naturlich das re exive Verb in den Fallen, in denen das Substantiv Subjekt des Funktionsverbs ist, das transitive Verb in den Fallen wo das Substantiv Objekt ist.
13 Naturlich mu berucksichtigt werden, da die Analyse auf der von Cohen in ihr Worterbuch aufgenommenen Intuition und (z.T. corpusbasierten) Beschreibung beruht. Eine umfangreichere Corpusanalyse,
wie sie Verlinden durchgefuhrt hat, ergibt ein nuancierteres Bild.

Z.

achat, concurrence, de cit,


depense, emprunt, epargne,
excedent
action, change, indice,
titre, valeur mobiliere
economie, balance des paiements

2
3
4

Nomengruppe/Verben !

activite, bene cier, ch^omage, co^ut,


commande, consommation, cours,
demande, dividende, exportation,
importation, investissement, marche,
marge bene ciaire, masse monetaire,
o re, pouvoir d'achat, production,
productivite, pro t, taux, vente
charges, concurrence, de cit
depenses, desequilibre, dette,
ecart, echanges, emprunt,
epargne, excedent, imp^ot,
liquidites, perte, plus-value,
rendement, reserves, ressources,
volume des echanges,
volume des transactions

Croissance

Declin

monter,
augmenter
s'ameliorer

baisser

Nomen=subj Nomen=obj Nomen=subj Nomen=obj


s'accro^tre,
accro^tre,
diminuer
restreindre
augmenter
augmenter

s'accro^tre,
augmenter

accro^tre

s'a aiblir,
se degrader,
se deteriorer
baisser

s'accro^tre,
augmenter

accro^tre

diminuer

a aiblir

diminuer

freiner,
reduire

Tabelle 5.1: Substantive aus [Cohen 1986] mit gemeinsamen Kollokationen


Fur die U berprufung von Lexikoneintragen ist es oft sinnvoll, in der Erarbeitung be ndliche Worterbuchfragmente nach ganz unterschiedlichen Kriterien zu testen; die Kriterien
sind oft nur durch die praktische Arbeit motiviert, sehr speziell und u.U. nur punktuell (ad
hoc) relevant. Man will sie nicht als generelle Zugri spfade (z.B. einer Datenbank) modellieren. Vor allem Zusammenhange zwischen Teilbeschreibungen von verschiedenen linguistischen Beschreibungsebenen konnen mit Ad-hoc-Anfragen auf einfache Weise uberpruft
werden, sind aber nach Abschlu der Lexikonentwicklung nicht mehr als Zugri spfade
relevant.
Die Moglichkeiten der Ad-hoc-Abfrage unterstutzen ein Vorgehen bei der Erstellung
von Worterbuchern nach den Prinzipien der Software-Entwicklung. Wenn man davon
ausgeht, da die De nition lexikalischer Spezi kationen in einem spiralformigen Proze
erfolgt, bei dem sich De nitionsarbeit und Test der Spezi kationen abwechseln (vgl. die
Diskussion in Abschnitt 2.1.1.3 und das Schema in Abbildung 2.4, Seite 27), so leuchtet die
Relevanz der hier diskutierten Moglichkeiten fur die interaktive U berprufung lexikalischer
Spezi kationen unmittelbar ein: der Lexikograph spezi ziert lexikalische Beschreibungen
von einer oder mehreren Beschreibungsebenen, sowie ihre Interaktion, und er testet mit
den Mitteln der Ad-hoc-Abfrage die eben de nierten Aussagen, um sicherzustellen, da
die Teilbeschreibungen und ihre Interaktion das intendierte Fragment bzw. die intendierten lexikalischen Eigenschaften abdecken. Bei der praktischen Arbeit wechseln sich in der
Regel die Formulierung von TFS-Statements, die Kompilierung und der Test unmittelbar

ab. Auf diese Weise kann die Worterbucherstellung ohne Mehraufwand fur den Lexikographen nach dem Verfahren des \Rapid Prototyping" erfolgen14.
Die Nutzung der Ad-hoc-Abfrage geht uber die Moglichkeiten hinaus, die der Benutzer
eines in einer relationalen oder objekt-orientierten Datenbank abgelegten Worterbuchs
normalerweise hat. Beide Arten von Datenbanken mussen einerseits komplexe Objekte in
kleinere Informationseinheiten zerlegen, bevor sie abgelegt werden konnen. Andererseits
mu das \fragmentierte" Objekt bei der Abfrage wieder \zusammengebaut" werden, und
je nach der Komplexitat der Objekte (d.h. danach, wieviele und wie tiefe Einbettungen
von Feature-Strukturen existieren) kann dieser Proze sehr zeitintensiv sein.
Idealerweise werden bei (relationalen) Datenbanken die Zugri spfade, uber welche die
abgelegten Daten abgefragt werden sollen, bei der Anlage von Indexen berucksichtigt
(Primarschlussel, Sekundarschlussel), und entsprechende Indexdateien werden vorab aufgebaut. Theoretisch konnte man alle Moglichkeiten der Abfrage eines TFS-Lexikons auf
diese Weise vorsehen und vorbereiten; dies ist in der Praxis wegen des Zeit- und Platzbedarfs, der bei der Indexerzeugung anfallt, nicht immer realistisch15. Hinzukommt, da
sich das Schema einer Datenbank, bzw. die De nition von Klassen eines TFS-Lexikons
andern konnen soll. Es durfte aber sehr schwierig sein, solche A nderungen in einem Modell
durchzufuhren, bei dem die Menge der moglichen Zugri spfade vorab festgelegt ist: die
Forderung nach Moglichkeiten zur Unterstutzung der Schema-Evolution und die Forderung nach Ad-hoc-Zugri auf in der Datenbank abgelegte Objekte scheinen sich { mindestens fur konventionelle relationale und objektorientierte Datenbanken { weitgehend
auszuschlieen.
In [Van der Laan 1996] wird die Frage diskutiert, wie ein Datenbank-Backend an TFS
angebunden werden kann, so da die Ad-hoc-Abfrage von TFS weiterhin unterstutzt wird.
14 Neben dieser interaktiven Benutzung der Ad-hoc-Abfrage ist die Moglichkeit der Anfrage mit beliebig
unterspezi zierten Strukturen naturlich auch in einem NLP-System relevant: im Rahmen des U bersetzungssystems, welches in [Heid/Kuhn 1994] beschrieben wurde, wurde beispielsweise gezeigt, wie in
einem auf HPSG beruhenden U bersetzungssystem semantische Teilbeschreibungen, die bei der Analyse der Quellsprache erzeugt worden sind, an eine zielsprachliche Grammatik weitergegeben werden,
um dort als Grundlage fur eine \generierungsartige" Evaluation zu dienen. Das angewendete Verfahren beruht wiederum auf der Moglichkeit, Anfragen mit beliebig unterspezi zierten Teilstrukturen zu
stellen.
Lexikalischer Zugri erfolgt bei der Generierung oder der Benutzung eines kontrastiven Worterbuchs nicht notwendig uber das Lemmazeichen. Vielmehr geht es darum, im Worterbuch lexikalisches
Material zu nden, das die Realisierung bestimmter (semantischer oder syntaktischer) Teilstrukturen
erlaubt. Bei der U bersetzung sind mitunter nicht nur Bedingungen der Quellsprache oder Bedingungen, die sich aus der semantischen Beschreibung des analysierten quellsprachlichen linguistischen
Objekts ergeben, zu berucksichtigen, sondern auch Constraints, welche aus der Zielsprache stammen
(vgl. hierzu die Diskussion in Abschnitt 2.2.2.2). Zielsprachliche Constraints steuern die Auswahl aus
A quivalentkandidaten; wie anhand des Beispiels aus Eurotra in Abschnitt 3.1.4.1 gezeigt (vgl. auch
Abbildung 3.12), entstehen A quivalentwahl-Constraints zum Teil durch die Interaktion von aus der
Quellsprache abgeleiteter semantischer Reprasentation und zielsprachlicher Grammatik, beispielsweise
hinsichtlich des Einbaus von A quivalentvorschlagen in die syntaktische Konstruktion der Zielsprache.
Solche Constraints konnen nicht sinnvoll in der Grammatik oder im Lexikon vorweg beschrieben werden. Grammatik und Lexikon beschreiben die Moglichkeiten, die in der Zielsprache zur Verfugung
stehen. Die Kombination der fur die Prozessierung eines Satzes relevanten Constraints wirkt dann als
komplexes \Ad-hoc-Filter" auf die Menge der A quivalentvorschlage.
15 Eine Losung, die in diese Richtung geht, wurde in Word Manager fur den (konzeptuell abgeschlossenen) Bereich der morphosyntaktischen Beschreibung im Lexikon gewahlt. Vgl. oben die Diskussion
in Abschnitt 3.1.4.4.

Im Rahmen seiner Untersuchung hat [Van der Laan 1996] gleichzeitig die wichtigsten
Datenbanktypen auf ihre Kombinierbarkeit mit TFS hin untersucht.

5.2 Eine Anwendung der modularen und zugri sneutralen Architektur:


Lexikonexport
In Abschnitt 2.1.1.2 und in der Diskussion des in Eurotra-7 erarbeiteten Wiederverwendungs-Szenariums (vgl. Abbildung 2.1, Seite 24) wurde der Export von lexikalischer
Information, zur Versorgung verschiedener Anwendungen, bereits kurz angesprochen. In
Abschnitt 2.1.1.3 wurden Erweiterungen des Eurotra-7-Szenariums vorgestellt; darunter ist die Forderung nach reversiblen Regeln zur Abbildung zwischen der z.B. in TFS
reprasentierten \Base de Donnees predictionnairique" und den Anwendungen (Anwendungen konnen auch selbst als Wissenquellen relevant werden), sowie, aus praktischer
Sicht zunachst relevanter, die Forderung, da der Export lexikalischer Informationen von
Erweiterungen der Datensammlung unabhangig sein soll.
Im folgenden Abschnitt werden Exportverfahren fur Lexika diskutiert, die so weit
als moglich den genannten Forderungen entsprechen sollen. Die konzeptuelle Grundlage
fur die Exportverfahren ist die Worterbucharchitektur selbst: Modularitat und Zugri sneutralitat erlauben erst die Verfahren, mit deren Hilfe einige der bei der Eurotra-7Architektur zurecht kritisierten Probleme vermieden werden konnen16 .
Diese beiden Designentscheidungen zusammen haben direkte Auswirkungen fur die
Wiederverwendbarkeit der in den DELIS-Worterbuchern abgelegten lexikalischen Informationen. Mit Hilfe der Ad-hoc-Abfrage lassen sich die DELIS-Worterbucher ohne besondere Schwierigkeiten als Grundlage fur den Export von Teilbeschreibungen in verschiedenartige anwendungsspezi sche Worterbuchformate verwenden. Dies soll im folgenden am
Export in das Format von \Lookup"-Worterbuchern17 gezeigt werden, die als Rohmaterial fur semasiologische Worterbucher, onomasiologische Worterbucher und syntaktische
Konstruktionsworterbucher dienen konnen. Auerdem wird der Export aus DELIS-Worterbuchern in ein Format gezeigt, das fur die Arbeit des Lexikographen als U berblicksliste
uber das bereits beschriebene Vokabular dienen kann.
Den Ausgangpunkt bilden die Informationen der Worterbucheintrage von DELIS, wie
sie in Abbildung 3.17, Seite 97 dargestellt sind. Sie enthalten eine Lemmaangabe, eine Liste von Attribut-Wert-Paaren, die zur Angabe der Subkategorisierung dient (unter
dem Attribut FEG, fur Frame Element Group), sowie, optional, eine Reihe von inharenten Merkmalen, wie sie beispielsweise in der Verbklassi kation verwendet werden konnen.
Schematisch ist das Format der TFS-Ausgabe der Eintrage in Abbildung 5.6 skizziert18 .
Wenn der Lexikograph ein DELIS-Worterbuch mithilfe von TFS abfragt, wird das Resultat in der in 5.6 schematisierten Anordnung prasentiert. Fur die praktische lexikographische Arbeit auf der Grundlage der DELIS-Worterbucher ist die vollstandige TFS-Ausgabe
(vgl. die Beispiele in den Statements unter 5.5, unten, Seite 156) nicht immer notwendig
16 Die Modularisierung der Worterbucher wurde in Abschnitt 3.2.2 diskutiert: die DELIS-Worterbucher
organisieren zwar die ebenenspezi schen Bausteine lexikalischer Beschreibungen in einer Spezialisierungshierarchie, jedoch nicht die Lesarten, die aus diesen Beschreibungsbausteinen \zusammengebaut" werden. Die zugri sneutrale Architektur der DELIS-Worterbucher wurde in Abschnitt 3.2.5
beschrieben.
17 Vgl. Abschnitt 1.2.1.2 und Funote 1.2.1.2, Seite 10.
18 Die Abbildung ist von Abbildung 4.1, Seite 100 ubernommen. Sie wird hier der Bequemlichkeit halber
nochmals angegeben.

LEMMA:

FEG:

..
Inharente
Merkmale

"..."

ROLLEN:

[ . . .]

ROLLEN:

[ . . .]

GRAMM. FUNKT.:

[ . . .]

GRAMM. FUNKT.:

[ . . .]

PHRASENSTR. TYPEN:

[ . . .]

PHRASENSTR. TYPEN:

[ . . .]

...

Abbildung 5.6: Schema eines Verb-Eintrags im DELIS-Worterbuch (wie Abbildung 4.1)


und nutzlich. Folgende praktische Motivation fur Exportwerkzeuge ergibt sich hieraus:
 Lexikographen sind nicht notwendig mit der Terminologie von Frame Semantics und
dem Reprasentationsformat von TFS vertraut; eine \konventionellere" Darstellung,
die aber auf derselben inhaltlichen Grundlage beruht, wird u.U. bevorzugt. Das
Export-Werkzeug steht hier im Dienst der Prasentation lexikalischer Beschreibungen;
 in einer gegebenen Situation mag der Lexikograph nur einen Teil der in den Worterbuchern enthaltenen Information benotigen, in makrostuktureller Hinsicht (welche Eintrage?), wie in mikrostruktureller (welche Angaben?); das Export-Werkzeug
dient hier zur Selektion von lexikalischen Beschreibungen.
Mit den Mitteln des Lexikonexports kann eine einfache \lexikographen-freundliche" Schnittstelle zu TFS-Lexika, aber auch eine Schnittstelle zu NLP-Anwendungen realisiert werden,
die die in Punkt 3 der Anforderungsde nition, oben in Abschnitt 2.3, Seite 66, geforderte
Robustheit gegenuber Fragmentanderungen erlaubt.

5.2.1 Auswahl des zu exportierenden Teilfragments mit Ad-hoc-Abfrage


Der Lexikograph mochte nur eine bestimmte Teilmenge der Lexikoneintrage, und, je nach
Zielanwendung, nur eine bestimmte Teilmenge der fur die Beschreibung einzelner Lesarten
verfugbaren Attribut-Wert-Paare, anzeigen oder exportieren lassen. Die Auswahl erfolgt
durch Ad-hoc-Abfrage (vgl. oben Abschnitt 5.1).
Hierfur ein Beispiel: wird die DELIS-Modellierung der englischen Perzeptionsverben
ohne Restriktionen abgefragt, so werden die einzelnen Belege in der Form ausgegeben, die
in in 5.5 fur die Lesarten von EN [to] notice angegeben ist19:
(5.5) notice-perception-thing
[LEMMA:"notice",

19 Zur Notation: Abweichend von den niederlandischen Beispielen in Statement 5.2, Seite 147, wird die
Beschreibung der inharenten Merkmale hier unter einem Attribut EVENT \aufgehangt". Zur besseren
Lesbarkeit sind unter dem Attribut \EXPL" Beispiele angegeben; die Typnamen wurden auerdem
gegenuber der internen Darstellung editiert und \sprechender" gemacht.

FEG:

<fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-ent,
GF: comp,
PT: np]>,
EXPL : "They noticed the marine sergeant.",
EVENT: vis-mod[MODALITY:vis]].
notice-that
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-prp,
GF: comp,
PT: that-cl[COMPLT:that-compl]]>,
EXPL: "I noticed that two of them were pairing off.",
EVENT: vis-mod[MODALITY:vis]].
notice-inverted-sentence-compl
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-prp,
GF: comp,
PT: th0-cl[COMPLT:th0-compl]]>,
EXPL: "His mother, I noticed, has turned her head away.",
EVENT: vis-mod[MODALITY:vis]].
notice-exper-only
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]>,
EXPL: "But nobody seemed to notice.",
EVENT: vis-mod[MODALITY:vis]].
notice-wh
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-prp,
GF: comp,
PT: wh-cl[COMPLT:wh-compl]]>,

EXPL: "You began to notice who took more than his share of butter.",
EVENT: vis-mod[MODALITY:vis]].
notice-event
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-evt,
GF: xcomp[CTRLR:u-comp],
PT: ing[VFORM:ingform]]>,
EXPL: "She noticed the man at the adjoining table watching her.",
EVENT: vis-mod[MODALITY:vis]].

Der Lexikograph kann nun beispielsweise fur eine U berblicks-Ausgabe, die nur die semantischen Rollenkonstellationen darstellt, alle Attribute auer FEG, FE und den darunter
eingebetteten Angaben aus ltern. Das System gibt dann insgesamt die in 5.6 zusammengestellten \Lesarten" fur notice aus20 :
(5.6) notice-perception-thing
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-ent]>,
EXPL: "They noticed the marine sergeant."].

notice-that
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-prp]>,
EXPL: "I noticed that two of them were pairing off."].
notice-inverted-sentence-compl
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-prp]>,
EXPL: "His mother, I noticed, has turned her head away."].
notice-exper-only
[LEMMA:"notice",
FEG: <fe[FE:exper-n]>,
EXPL: "But nobody seemed to notice."].
notice-wh
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-prp]>,
EXPL: "You began to notice who took more than his share of butter."].
notice-event
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-evt]>,

20 Die Typnamen und Reihenfolge der Lesarten sind aus Statement 5.5 ubernommen worden. Die Beispielsatze wurden beibehalten.

EXPL: "She noticed the man at the adjoining table watching her."].

Fur die Information des Lexikographen uber die relevanten Lesarten von [to] notice sind
die Attribute nicht notwendig, die unter den jeweiligen Rollen-Namen eingebettet sind
(z.B. \[INTENTION: +j-]" bei der Rolle experiencer); sie konnen unterdruckt werden
(z.B. durch die entsprechende De nition der TFS-Ausgabeoption \:SHADOWED-ATTRIBUTES").

5.2.2 Prasentation der Information fur Zielanwendungen

Die Anordnung der Information, wie sie bei der TFS-Evaluation ausgegeben wird, ist
nur eines von verschiedenen moglichen Ausgabeformaten. Wenn der Lexikograph schnell
uberprufen will, welche Beschreibungen schon in seinem Worterbuch enthalten sind, wird
er eine \Worterbuch-artige" oder eine tabellarische Prasentation bevorzugen. Ebenso als
Arbeitsgrundlage fur die Erstellung von Worterbuchern verschiedener Typen.
Da die einzelnen Teilbeschreibungen in DELIS-TFS gleichberechtigt nebeneinander
stehen, gibt es keine Abhangigkeitsbeziehungen zwischen ihnen21. Folglich konnen die
Teilbeschreibungen beliebig reorganisiert werden.
Beispiele fur die Reorganisation sind etwa die ublichen Modelle von semasiologischen
bzw. onomasiologischen Worterbucheintragen, wie sie nachfolgend in den Abbildungen
5.7 und 5.8 dargestellt sind.
LEMMA:

". . ."

- Lesart-1:
- Rollenkonstellation:
- Syntax:

ROLLE:

[ . . .]

ROLLE:

[ . . .]

...

FUNKTION:

[ . . .]
[ . . .]

FUNKTION:

PHRASEN-TYP:

PHRASEN-TYP:

[ . . .]
[ . . .]

...

ROLLE:

[ . . .]

ROLLE:

[ . . .]

...

FUNKTION:

[ . . .]
[ . . .]

FUNKTION:
PHRASEN-TYP:

[ . . .]
[ . . .]

...

-...

- Lesart-2:
- Rollenkonstellation:
- Syntax:

PHRASEN-TYP:

-...

...

Abbildung 5.7: Reorganisation von Informationen aus DELIS-Worterbuchern fur ein semasiologisches Worterbuch
Beim semasiologischen Worterbuch werden die einzelnen Eintrage alphabetisch nach den
Lemmazeichen sortiert. Dann werden die Untereintrage jeweils nach den Rollenkonstel21 Allerdings kann z.B. das Merkmal \[INTENTION: +j-]" naturlich nur ausgegeben werden, wenn die
zugehorige Rolle (in diesem Fall experiencer) auch ausgegeben wird, d.h. wenn fur das Attribut
\FE" ein Wert ausgegeben wird.

Semant. Klasse

- Rollenkonstellation:

FEG:

ROLLE:

[ . . .]

ROLLE:

[ . . .]

...

[ . . .]
[ . . .]

FUNTION:
PHRASEN-TYP:

[ . . .]
[ . . .]

...

[ . . .]
[ . . .]

PHRASEN.-TYP:

[ . . .]
[ . . .]

...

- Lemma-Liste
- Lemma-1:

Lemma-Name:
- Syntax: FEG:

"..."
FUNKTION:
PHRASEN-TYP:

- Lemma-2:

Lemma-Name:
- Syntax: FEG:

"..."
FUNKTION:
PHRASEN-TYP:

FUNKTION:

-...

Abbildung 5.8: Reorganisation von Informationen aus DELIS-Worterbuchern fur ein onomasiologisches Worterbuch
lationen organisiert. Zu jeder Rollenkonstellation (Rollenkonstellationen werden hier als
\Rohmaterial" fur Bedeutungsangaben zur Lesartenunterscheidung verwendet) werden
die einzelnen syntaktischen Teilbeschreibungen gegeben.
(5.7)
#ENT, v.
1. #MOD:
;
#SEM-EXPL:
:
#SORT
#SORT-BEARER
.
#SYN-FORMULA

Eine mogliche Prasentations-Syntax von semasiologischen Eintragen ist informell in 5.7


angegeben; die Abfolge von Eintragswort (\ENT"), Lesartnummer, Bedeutungserlauterung
(bestehend aus \MOD(ality):", \SEM(antic)-EXPL(anation)", \SORT" und \SORT-BEARER")
und syntaktischer Konstruktionsangabe (\SYN-FORMULA") wird dadurch festgelegt. Diese
Festlegung konnte auch durch eine DTD von SGML erfolgen. Das Zielformat wird mithilfe
von Abbildungsregeln (Mapping) aus den TFS-Evaluationsresultaten \aufgefullt".
Ein Beispiel fur die Rohform eines semasiologischen Eintrags, der durch die Anwendung von Mappingregeln aus einem TFS-Evaluierungsresultat erzeugt werden konnte, ist
Abbildung 5.9 fur die wichtigsten Lesarten von EN [to] taste angegeben22 .
Beim onomasiologischen Worterbuch liegt eine Einteilung nach semantischen Klassen
als oberstes Prinzip fur die Unterteilung des Worterbuchs in Abschnitte oder Eintrage vor.
Wenn man akzeptiert, da die Rollenkonstellationen solche semantischen Klassen de nieren, so kann man in einem Artikel des Worterbuchs alle Lesarten verschiedener Lemmata
zusammenfassen, die dieselbe Rollenkonstellation aufweisen. Subeintrage enthalten jeweils
22 Der Eintrag weist noch Redundanzen in der semantischen Beschreibung auf. Wenn z.B. die
\Modality"-Angabe uberall dort generalisiert wird, wo sich einzelne TFS-Evaluierungsresultate diesbezuglich nicht unterscheiden, dann kann dieses Problem ebenfalls behoben werden.

taste, v. 1 (gustatory perception; perception faculty); human perceiver;


sb. tastes. 2 (gustatory perception; non-intentional perception); human
perceiver; entity percept; sb. tastes sth. 3 (gustatory perception; attentive
perception: intentional act); human perceiver, entity or event target; sb.
tastes sth. 4 (perceivable quality of a thing or event); percept, judgement;
sth. tastes adj.; sth. tastes like sth.; sth. tastes of sth.
Abbildung 5.9: Rohmaterial fur einen semasiologischen Worterbucheintrag, abgleitet aus
TFS-Beschreibungen
eine Lemmaliste, wobei jeweils das Lemma und die zugehorige (fur die Rollenkonstellation
charakteristische) syntaktische Beschreibung angegeben werden. Zum Teil kann es mehrere syntaktische Realisierungen einer Rollenkonstellation bei einem gegebenen Lemma
geben. In diesem Fall wurden naturlich mehrere alternative syntaktische Beschreibungen
ausgegeben werden.
Soll die DELIS-Information fur ein Subkategorisierungsworterbuch aufbereitet werden, welches nach syntaktischen Klassen geordnet ist, so stellt die Beschreibung nach
grammatischen Funktionen (und/oder syntaktischen Kategorien) das Kriterium fur die
De nition der einzelnen Abschnitte oder Lexikoneintrage dar. Ein Schema eines Eintrags
eines Konstruktionslexikons, das nach einem solchen Prinzip aufgebaut ist, ist in der
Abbildung 5.10 angegeben: Eintrage sind durch syntaktische Konstellationen de niert.
Untereintrage werden nach den semantischen Konstellationen organisiert, die durch die
jeweilige syntaktischen Form ausgedruckt werden konnen. Fur jede Rollenkonstellation ist
eine Lemmaliste angegeben. Ein solches Worterbuch wurde dem Benutzer zeigen, welche
semantischen Konstellationen (realisiert mit welchen Verben) analoge syntaktische Konstellationen aufweisen23 .
Ein ganz einfaches Beispiel fur ein Zielformat stellen die Kurzinformationen dar, die
z.B. als Grundlage fur lexikographische Beschreibungsarbeit im Rahmen der DELISLexikographen-Schnittstelle zusammengestellt werden. Sie haben ein tabellenartiges Format (vgl. Abbildung 5.11), wobei die einzelnen Spalten der Tabelle (von links nach rechts)
die Rolle des ersten Arguments des Verbs, das Verblemma, die syntaktische Realisierung
und Rolle des zweiten Arguments (und, fakultativ, die syntaktische Realisierung und Rolle
des dritten Frame Elements) angeben. Jede Zeile beschreibt eine \Lesart"; grammatische
Funktionsnamen sind ausgespart, jedoch wird eine feste relative Reihenfolge der Argumentrealisierungen angesetzt, wie in den Konstruktionsmustern von DFC oder DFLE in
Frankreich oder in den Konstruktionsangaben von [Busse/Dubost 1983] oder dem neuen
Klett-Worterbuch Deutsch/Franzosisch, Franzosisch/Deutsch, die oben in Abbildung 2.9,
Seite 44 reproduziert worden sind.
Im Beispiel in Abbildung 5.11 sind die \Lesarten" von EN [to] notice angegeben,
23 In gewisser Weise kann man das Worterbuch von Levin ([Levin 1993]) als ein Beispiel fur einen
solchen Typ anfuhren. Levin geht es darum, zu zeigen, welche syntaktischen Alternationen zwischen
Subkategorisierungstypen im englischen Verbwortschatz auftreten, und wie diese Alternationen mit
semantischen Verbklassen zusammenhangen. Die einzelnen Abschnitte des Worterbuchs sind durch
die jeweils zutre enden Alternationen zwischen syntaktischen Konstellationen de niert. Jeder einzelne
Eintrag enthalt dann Unterabschnitte fur die semantischen Klassen, die zunachst de niert sind und
dann anhand einer Liste von Lemmata bzw. den relevanten Lesarten dieser Lemmata illustriert werden.

Syntakt. Klasse

- Syntakt. Konstellation:

FEG:

[ . . .]
[ . . .]

FUNKTION:

PHRASEN-TYP:

PHRASEN-TYP:

[ . . .]
[ . . .]

...

ROLLE:

[ . . .]

ROLLE:

[ . . .]

...

FUNKTION:

- Sem. Konstellation-1:
- Rollen-Konstellation: FEG:
- Lemma-Liste:
- Lemma - 1: " . . . "
- Lemma - 2: " . . . "
- ...

...
- Sem. Konstellation-2:

...
...

Abbildung 5.10: Reorganisation von Informationen aus DELIS-Worterbuchern fur ein


Subkategorisierungsworterbuch
[PERCEIVER
[PERCEIVER
[PERCEIVER
[PERCEIVER
[PERCEIVER
[PERCEIVER

non-intentionally]
non-intentionally]
non-intentionally]
non-intentionally]
non-intentionally]
non-intentionally]

notice
notice
notice
notice
notice
notice

[actual entity PERCEIVED]


that-clause [actual situation PERCEIVED]
sent
[actual situation PERCEIVED]
wh-clause
[actual situation PERCEIVED]
v-ing:
[actual event PERCEIVED]

Abbildung 5.11: Tabellarische U bersicht uber die Lesarten von EN [to] notice
die in Abbildung 5.5, Seite 156 im TFS-Format dargestellt sind. Auf Wunsch kann sich
der Lexikograph dieselbe Art von Listen auch mit je einem Beispielsatz ausgeben lassen.
Abbildung 5.12 enthalt die Belege fur EN [to] taste, die im DELIS-Worterbuch enthalten
sind. Jeweils ist ein Beispielsatz aus den im DELIS-Projekt benutzten Corpusmaterialien
(z.T. vom Lexikographen sinngema gekurzt) mit angegeben24 .

5.2.3 Ablaufschema des Worterbuchexports

Folgende Schritte mussen bei der Durchfuhrung des Exports lexikalischer Information aus
DELIS-Worterbuchern in anwendungsspezi sche Worterbuchformate durchgefuhrt werden:
 Die De nition des zu exportierenden Fragments durch den Lexikographen (interaktiv): Selektion.
24 Nicht alle Varianten der taste like-Konstruktion, je nach Subtyp der judgement-Rolle, sind hier aufgefuhrt. Vgl. Lesart 4 in Abbildung 5.9, Seite 161.

Die Extraktion des relevanten Teilfragments durch Ad-hoc-Abfrage in TFS.


 Die Auswahl eines anwendungstypischen Zielformats durch den Lexikographen (interaktiv).
 Die Reformatierung der als Attribut-Wert-Strukturen hierarchisch organisierten Worterbucheintrage von DELIS in ache Listen von Attribut-Wert-Beschreibungen (dieser Schritt wird automatisch durchgefuhrt und kann mit der Extraktion aus dem
DELIS-Worterbuch durch Evaluierung von Ad-hoc-Abfragen verbunden werden).
 Das \Au 
ullen" des gewunschten Zielformats aus den Teilinformationen, welche in
den achen Attribut-Wert-Listen enthalten sind (Konversion: automatisch, anhand
von Abbildungsregeln, die zuvor fur jedes Zielformat de niert werden mussen).
Die Schritte werden im Folgenden anhand des Exports in das tabellarische Format illustriert. Die Graphik in Abbildung 5.13 stellt den Ablauf des Exportvorgangs (von links
nach rechts) und die jeweils benutzten Informationsquellen schematisch dar.
Ad-hoc-Abfrage und Bereitstellung acher Attribut-Wert-Paar-Listen erfolgen in einem gemeinsamen Schritt. Im einfachsten Fall werden die Ergebnisse der Ad-hoc-Abfrage
als Listen mit fester Stelligkeit reformatiert. Dies erfolgt beispielsweise mithilfe von De nitionen wie der in 5.8 exemplarisch fur intransitive Verben angegebenen; im Fall von 5.8
wird nur ein Teil der in TFS verfugbaren Information bei der Reformatierung uberhaupt
berucksichtigt25 .
(5.8) lgr = lgr-en3 | lgr-en5 | lgr-en7.


lgr-en3[1: #fe1, 2: #pt1, 3: #lex, 4: #expl, 5: #mod ]


:[LEMMA:
#lex,
EXPL:
#expl,
EVENT.MODALITY:
#mod,
FEG: <fe [FE: #fe1, GF: #gf1, PT: #pt1]>].

Die Zwischenreprasentation, die von TFS als Evaluierungsresultat fur \?lgr." erzeugt
wird, ist (am Beispiel von EN [to] notice) in 5.9 dargestellt.
(5.9) lgr-en3
[1:exper-n,
2:np,
3:"notice",
4:"But nobody seemed to notice.",
5:vis].

lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-prp,
5:that-cl[COMPLT:that-compl],
6:"I noticed that two of them were pairing off.",

25 Das brauchte nicht so zu sein: hier wird dem Spezialfall der tabellarischen Darstellung fur Lexikographen Rechnung getragen, die z.B. auf Angaben zu grammatischen Funktionen bewut verzichtet. Im
allgemeinen Fall wird alle von TFS bereitgestellte Infomation abgebildet.

7:vis].
lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-prp,
5:th0-cl[COMPLT:th0-compl],
6:"His mother, I noticed, has turned her head away.",
7:vis].
lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-prp,
5:wh-cl[COMPLT:wh-compl],
6:"You began to notice who took more than his share of butter.",
7:vis].
lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-ent,
5:np,
6:"They noticed the marine sergeant.",
7:vis].
lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-evt,
5:ing[VFORM:ingform],
6:"She noticed the man at the adjoining table watching her.",
7:vis].

Fur die Abbildung in das Tabellenformat wird ein \Mapping-Lexikon" benutzt, das eindeutige Zuordnungen zwischen der in DELIS-TFS benutzten Terminologie und \lexikographen-freundlichen" Bezeichnungen enthalt. Solche \Alias"-Namen kann sich der Lexikograph z.B. selbst de nieren; sie stellen lediglich prasentationelle Varianten der im
TFS-Worterbuch benutzten Beschreibungsbausteine dar, sind jedoch als solche u.U. fur
den Benutzer leichter handhabbar. Sie konnen zielgruppenspezi sch variiert werden. Auerdem konnen sie, wie die Metasprache in jedem guten Worterbuch, der Benutzersprache
angepat werden. Die Konversionsroutinen sind parameterisiert: der Benutzer gibt jeweils
an, welches \Mapping-Lexikon" benutzt werden soll. Ein italienischer Lexikograph, der
ein niederlandisch-italienisches Worterbuch erstellen will, kann z.B. die niederlandischen
und die italienischen Daten mit derselben (italienischen) Metasprache exportieren lassen.
Die oben in Abbildung 5.11 angegebenen Lesarten von EN [to] notice sind in Abbildung
5.14 mit italienischer Metasprache angegeben.

Die Konversionsroutinen sind als perl-Programme realisiert worden26 ; sie sind im Prinzip
umkehrbar (bisher noch nicht realisiert) und setzen unmittelbar auf den Ergebnissen der
Ad-hoc-Abfrage von TFS auf.

5.2.4 Robustheit des Exports gegenuber A nderungen des Lexikons

Die hier beschriebenen Verfahren zum Lexikonexport benutzen in einer aktuellen ExportSituation den jeweils zu diesem Zeitpunkt gultigen Zustand des Worterbuchs. Bei der Bestimmung des zu exportierenden Fragments ist dies auch notwendig, weil hierzu naturlich
bekannt sein mu, welche Klassi zierungen im Worterbuch vorgenommen worden sind,
und welche einzelnen Lexikoneintrage bzw. Beschreibungen von Lesarten vorhanden sind.
Die dem Export zugrundeliegenden Abbildungsregeln bleiben aber konstant auch wenn
das Worterbuch selbst modi ziert wird. Das Hinzufugen bzw. Loschen von Instanzen hat
keine Auswirkung auf die Export-Routinen, weil diese nicht auf den einzelnen Lexikoneintragen aufsetzen, sondern auf den einzelnen Beschreibungsmitteln, welche zur syntaktischen und semantischen Beschreibung benutzt werden. Die Export-Routinen sind an
den Bausteinen der Beschreibung, d.h. an den einzelnen Rollen, grammatischen Funktionen und De nitionen von phrasenstrukturellen Typen festgemacht worden, soda sie von
den lexikalischen Klassi zierungen unabhangig sind. Dies gilt genauso fur die \MappingLexika", die fur die benutzersprach-spezi schen Ausgaben des Konversionsschritts benutzt
werden.
Solange keine neuen Beschreibungsmittel eingefuhrt werden, braucht an den einmal de nierten Export-Routinen nichts geandert zu werden. Auf diese Weise kann die in den Anforderungsde nition geforderte Robustheit gegenuber Lexikonanderungen erzielt werden.
Sie beruht auf dem Prinzip der Modularitat: das Worterbuch unterscheidet BeschreibungsBausteine, Klassen von ebenenspezi schen Beschreibungen und Instanzen dieser Klassen.
Die Export-Routinen beziehen sich auf die Bausteine der Beschreibung. Daher sind A nderungen des Worterbuchs ohne Auswirkung auf die Exportverfahren; auch A nderungen der
Klassi zierung von lexikalischem Material, d.h. der De nition von Klassen von ebenenspezi schen Beschreibungen sind ohne Auswirkung. Erst A nderungen des WorterbuchSchemas, die zu A nderungen im Beschreibungsinventar fuhren, mussen beim Export (in
der Regel nur im \Mapping-Lexikon") eigens berucksichtigt werden.

5.2.5 Eine Anwendung des Lexikonexports: Lexikongesteuerte Corpussuche

Eine praktische Anwendung der Exportverfahren wurde in Abschnitt 5.2.3 bereits angesprochen: die Bereitstellung von Listen lexikalischer Beschreibungen in verschiedenen
Formaten, als Hilfsmittel fur Lexikographen.
Ein weiteres Hilfsmittel wurde im DELIS-Projekt auf derselben Grundlage entwickelt:
es handelt sich den DELIS Search Condition Generator, ein Werkzeug, welches Abbildungen zwischen den DELIS-Lexikonfragmenten und in Textcorpora annotierten (morpho)syntaktischen Beschreibungen dazu benutzt, fur einzelne im Worterbuch beschriebene
Lesarten geeignete Beispielsatze aus dem Corpus zu extrahieren. Das Werkzeug implementiert damit die in Punkt 2 der Anforderungsde nition aus Abschnitt 2.3, Seite 65,
26 Die Implementierung, nach der hier zusammengefaten funktionalen Spezi kation, wurde von Bruno
Maximilian Schulze, Stuttgart, im Rahmen des DELIS-Projekts realisiert. Dafur herzlichen Dank.
Eine WWW-Schnittstelle zu den hier beschriebenen Werkzeugen ist uber die WWW-Seite von DELIS
ebenfalls verfugbar.

vorgetragene Forderung nach Dokumentation von Lexika durch Bindung der lexikalischen
Beschreibungen an in Corpora uberprufbare Phanomene. In Abbildung 2.6, Seite 32, sind
diese Zusammenhange schematisch dargestellt worden27 .
Der Search Condition Generator funktioniert wie ein Export-Werkzeug: aus den TFSBeschreibungen der DELIS-Lexikonfragmente werden die zu dokumentierenden Lexikoneintrage mittels Ad-hoc-Abfrage ausgewahlt und dann auf eine (Sequenz von) Corpusabfragen abgebildet.
Im speziellen Fall des im DELIS-Projekt realisierten Prototypen fur Englisch wurde
ein mit der English Constraint Grammar, ENGCG (vgl. [Voutilainen et al. 1992] und die
allgemeine Einfuhrungsdarstellung in [Karlsson 1992]) annotierter Ausschnitt aus dem
British National Corpus, BNC, als Textgrundlage benutzt. Die Abbildung TFS $ Corpusannotation wurde entsprechend an das in ENGCG benutzte Annotationsschema angepat. Im ENGCG-Output sind grammatische Funktionsnamen an Wortformen annotiert,
die vom Constraint-Grammar-Parser als mogliche Kopfe von Phrasen identi ziert worden
sind; ENGCG-annotierte Texte enthalten aber keine Angaben uber Anfang und Ende von
phrasenstrukturellen Konstrukten; auerdem sind naturlich die in DELIS-Worterbuchern
angegebenen Rollen und Rollenkonstellationen in den Texten nicht annotiert.
Die Abbildung beruht folglich zunachst auf den grammatischen Funktionsangaben:
in Tabelle 5.15 sind Beispiele fur diese Abbildung zusammengestellt. Auerdem werden
aber die syntaktischen Kategorien, die in DELIS-Lexika angegeben sind, ebenfalls fur die
Abbildung benutzt: [Jauss 1994] hat eine \Low-Level-Grammatik" fur Part-of-SpeechShapes derjenigen Konstruktionen entwickelt, die im Englischen als Verbkomplemente
auftreten konnen: dabei sind komplexe Corpus-Suchausdrucke entstanden, die z.B. die
wichtigsten Varianten von Subjekts- oder Objekts-Nominalphrasen als Sequenzen von
kategorial und morphosyntaktisch annotiertem Wortmaterial beschreiben.
Wie das \Mapping-Lexikon" im Fall der Abbildung von TFS in ein lexikographieorientiertes Tabellenformat, sind auch die Suchausdrucke als separate Informationsquelle
abgelegt, soda sie bei Bedarf ausgetauscht werden konnen. Die Exportwerkzeuge produzieren also, im Fall des Search Condition Generator, statt reformatierter Lexikoneintrage
Corpusanfragen.
Die Corpusanfragen werden an ein Corpus-Suchwerkzeug28 weitergegeben, welches die
Belegsatze extrahiert, die den in der automatisch generierten Anfrage spezi zierten Bedingungen entsprechen. In Abbildung 5.16 ist der Ablauf des speziellen Exportverfahrens
schematisch dargestellt, das dem Search Condition Generator zugrundeliegt.
In Abbildung 5.17 sind einige Belege zusammengestellt, die mit dem Werkzeug aus dem
ENGCG-geparsten BNC extrahiert worden sind; es handelt sich um einen Ausschnitt aus
den Belegen fur EN [to] taste mit pradikativen Adjektivphrasen.
Die Beispielmenge enthalt unter anderem den (Teil-)Satz \with all 26 wines tasted
available for under a ver, however, ..." (No. 30578), der o ensichtlich mit den Mitteln des ENGCG-Parsers nicht von den anderen Belegen abgetrennt werden kann (keine
Phrasen-Annotation). Fur das Suchwerkzeug gilt naturlich dieselbe Beschrankung wie fur
alle Anwendungen von Abbildungen abstrakterer auf weniger abstrakte Beschreibungen:
die Trennscharfe der Suchausdrucke, die auf Part-of-Speech-Shapes beruhen, ist geringer
27 Der Search Condition Generator wurde in [Linden 1994] de niert; vgl. auch [Emele 1994], [Heid 1995a]
und [Heid 1995c].
28 Fur die hier beschriebenen Arbeiten wurden die von O. Christ und B.M. Schulze entwickelten Corpusabfragewerkzeuge CQP/Xkwic benutzt. Vgl. [Christ 1993], [Schulze 1994].

Konstruktion/Annotation
Anzahl Belege
Form \taste (djsjing)"
641
{ davon taste/N
111
{ davon ambig annotiert: taste/N oder /V
38
{ Verbkandidaten taste/V
568
Konstruktionen
{ SUBJ taste OBJ
181
{ SUBJ taste of NP
24
{ SUBJ taste like NP
32
{ SUBJ taste ADJP
91
Tabelle 5.2: Belege fur verschiedene Konstruktionen von EN [to] taste in BNC: Verteilung
als diejenige der \abstrakteren" Anfragen. Aber umgekehrt nden sich die abstrakteren
Annotationen seltener in Corpora, oder es bedarf sehr groen Aufwands um sie dort
einzufuhren. Der Kompromi, der mit dem Search Condition Generator verfolgt wird
(grammatische Funktionen und POS-Shapes als gemeinsame Beschreibungsebene fur Lexikon und Corpus), fuhrt zu akzeptablen Ergebnissen; in Tabelle 5.2 ist angegeben, wieviel
Belege fur die wichtigsten Konstruktionen von EN [to] taste gefunden wurden. Fur den Lexikographen ist es nutzlich, wenn die Belegsuche in Corpora moglichst spezi sch gestaltet
wird: wenn er unmittelbar auf Beispiele zugreifen kann, die eine bestimmte Konstruktion
illustrieren, so lat sich der Proze der Lexikonerstellung erheblich ezienter gestalten,
weil groe Teile der sonst manuell zu erledigenden \Sortierarbeit" automatisch erfolgen.
Die Trennscharfe des Suchwerkzeugs leidet ein wenig darunter, da sowohl in BNC
als auch in ENGCG ambige Annotationen vorkommen konnen (z.B. taste als \N-or-V"
annotiert); wenn der in den Corpora benutzte Part-of-Speech-Tagger keine eindeutige Zuordnung einer Wortform zu einer Wortklasse vornehmen konnte, dann wurde ein ambiges
Tag verwendet. Das fuhrt naturlich zu unerwunschtem Rauschen bei der Abfrage. Auerdem stort (wie oben angesprochen) das Fehlen von Konstituentengrenzen-Annotationen.
Aus der Sicht der praktischen lexikographischen Arbeit stellt der Search Condition
Generator eine Erleichterung dar; Voraussetzung fur eine breitere Anwendung ist aber die
Verfugbarkeit geeignet annotierter Textcorpora.
Aus der Sicht des Lexikonexports kann das Werkzeug als eine weitere Anwendung der
in diesem Kapitel diskutierten Prinzipien gesehen werden. Auch die hier benutzten Abbildungen sind gegen Lexikonanderungen robust; wieder wird das zweistu ge Exportverfahren (Selektion durch Ad-hoc-Abfrage von TFS, Abbildung mit separatem \MappingLexikon") angewendet; es kann somit generalisiert und im Mapping-Teil nach einzelnen
Anwendungen parameterisiert werden.

5.3 Diskussion: Abfragemethoden


In den vorigen Abschnitten wurden Beispiele fur die Abfrage von in TFS reprasentierten
Lexika gegeben. Im folgenden Abschnitt sollen zwei Fragestellungen diskutiert werden,

die Spezi ka der Abfrage von TFS-Lexika und die Rolle von TFS als linguistischer Wissensreprasentationsformalismus betre en.

5.3.1 Interpretation der Hierarchie unter der Open World Assumption vs.
Closed World Assumption
TFS erlaubt sowohl eine Interpretation von Hierarchiestatements unter der Closed World
Assumption29, als auch unter der Open World Assumption.
Der Lexikograph kann bei der De nition von Hierarchiestatements bei der lexikalischen Modellierung zwischen den beiden Interpretationen wahlen. Ebenso kann die Abfrage gesteuert werden: die Unterschiede zwischen Open- und Closed-World konnen entweder berucksichtigt werden, oder der Lexikograph verlangt, da alle Aussagen unter der
Closed-World-Assumption interpretiert werden. Bei einer Abfrage unter der Open World
Assumption wird der spezi schste Typ ausgegeben, der die Anfrage subsumiert, aber es
werden nicht alle seine Untertypen aufgezahlt. Unter der Closed World Assumption erfolgt
genau eine solche Aufzahlung.
In der Modellierung wird man in der Regel Closed World-Angaben dort bevorzugen,
wo klar ist, da eine Domane von den Untertypen eines bestimmten Types vollstandig
partitioniert wird; das Statement 3.1, Seite 76, ist ein charakteristisches Beispiel: es soll
ausgesagt werden, da es (im Deutschen) genau drei verschiedene Werte fur das Attribut Genus gibt. Dagegen wird eine Open World-Angabe benutzt, wenn z.B. ausgedruckt
werden soll, da ein Fragment nur die (derzeit) bekannten, oder nur die relevanten Subtypen eines Typs enthalt; es konnte weitere Subtypen geben, und der Lexikograph konnte
weitere Statements erganzen, die analog formuliert sind, ohne da er die Interpretation
der bestehenden Statements andern mu.
Die Unterschiede machen sich bei der Evaluierung bemerkbar. Ein Beispiel soll dies
verdeutlichen. Der Lexikograph ist an Beschreibungen interessiert, in denen die Frame Element Group in Statement 5.10 vorkommt, die einen experiencer-int und ein
percept-target enth
alt.
(5.10)
[FEG: <fe[FE: experiencer-int] fe[FE: percept-target]>].
Er will aber u.U. keine komplette Aufzahlung samtlicher linguistischer Objekte, sowohl
Lexikoneintrage als auch De nitionen von Klassen; es genugt, wenn er diejenigen syntaktischen Klassen aufgelistet bekommt, welche zur Realisierung der in 5.10 angegebenen
semantischen Beschreibung verfugbar sind.
Dies kann mit Anfrage 5.11 uberpruft werden. Die Hierarchie der syntaktischen Klassen ist nach der Open World Assumption modelliert. Wird nun auch unter der OpenWorld-Assumption angefragt, so stoppt die Evaluation an der Stelle, wo die als Antwort
ausgegebenen Beschreibungen gleichermaen spezi sch sind wie die in der Anfrage formulierten Constraints.
(5.11) ?synclass[FEG: <fe[FE: experiencer-int] fe[FE: percept-target]>].
In der Anfrage 5.11 wird nach einer syntaktischen Klasse gefragt (Subtyp von synclass).
Das Resultat mu also wiederum eine syntaktische Klasse enthalten (vgl. 5.12): hier die
29 Closed World Assumption bedeutet vollstandige Partitionierung der Domane durch die de nierten
Subtypen, Interpretation der Negation als Komplement, usw., vgl. oben, Abschnitt 3.1.2.5, sowie
insbesondere [Emele 1996].

De nition einer syntaktischen Klasse (v-s-onp), die das entsprechende Constraint erfullt,
aber nicht die Lexeme, die zu dieser Klasse gehoren.
(5.12) v-s-onp[FEG: <fe
[FE
:
[INTENTION:
SORT
:
GF
:
PT
:
fe
[FE
:
[EXPECTED :
SORT
:
GF
:
PT
:

experiencer-int
+,
human],
subj,
np]

percept-target
+,
entity | proposition],
comp,
np]>].

Wird Anfrage 5.11 dagegen unter der Closed-World-Assumption evaluiert, so werden jeweils diejenigen vollstandig spezi zierten Worterbucheintrage ausgegeben, welche eine
Frame Element Group wie die in 5.10 angegebene enthalten. Die Ergebnisse (vgl. ein
Beispiel in 5.13) werden also bis auf die Ebene der terminalen Klassen herunter spezialisiert.
(5.13) sight-att-tgt
[LEMMA: ight",
FEG:
<fe
[FE
: experiencer-int
[INTENTION: +,
SORT
: human],
GF
: subj,
PT
: np]
fe
[FE: percept-target
[EXPECTED : +,
SORT
: entity | proposition,
INTEREST : +,
DISTANCE : +,
SPECIFICTY: -],
GF
: comp,
PT
: np]>,
EVENT: vis-mod
[MODALITY: vis,
DURATION: duration]].

Beide Arten von Anfragen und beide Arten von Ergebnissen konnen fur die lexikographische Arbeit ihre Relevanz haben.


Beschrankt sich das Interesse auf lexikalische Klassen, die die in der Anfrage enthaltenen Constraints erfullen, so ist eine Evaluation unter der Open-World-Assumption
sinnvoll.

Will der Lexikograph samtliche lexikalische Instanzen kennen, fur die eine bestimmte
Beschreibung Gultigkeit hat, mu eine Evaluation unter der Closed-World-Assumption
erfolgen, auch fur Teile, die unter der Open-World-Assumption modelliert worden
sind.

Die Art der Anfrage und mit ihr die Art und Weise, in der die Eigenschaften des TFSSystems ausgenutzt werden, hangt also sehr stark von der Anwendungssituation und von
der Aufgabenstellung ab, welche mit einer konkreten Anfrage gelost werden soll.

5.3.2 \Lexikographische" Anfrage vs. Benutzung von Lexikoneintragen in


einem NLP-System

Die Benutzung von TFS bei der interaktiven Abfrage lexikalischer Information unterscheidet sich etwas von den Anfragen an TFS, die im Rahmen der Verarbeitung von
Lexikoneintragen in einem NLP-System vorkommen.
In den Beispielen zur Abfrage der DELIS-Worterbucher, die in Abschnitt 5.1 diskutiert
wurden, wurde in der Anfrage zum Teil ein Typname spezi ziert, zum Teil eine partielle
Strukturbeschreibung, oder beide Arten von Constraints wurden kombiniert30. Bei der
Diskussion von Statement 5.2 auf Seite 147 wurde darauf hingewiesen, da im Prinzip
beide Typen von Anfragen beliebig kombiniert werden konnen und es keinen Unterschied
macht, wie eine Teilbeschreibung in der Anfrage formuliert wird (ob als Typ oder als
strukturelles Constraint). Dies ist in dieser generellen Form etwas vereinfachend. Erstens
kann eine bestimmte Teilstruktur auf verschiedene Typen zuruckgehen, soda naturlich
nicht jedem strukturellen Constraint ein Typ entspricht (folglich ergeben sich Unterschiede
im Resultat bei der Anfrage mit einem Struktur-Constraint vs. einem Typ).
Zweitens gibt es einen prinzipiellen Unterschied zwischen verschiedenen Typen von
Anfragen; bei der Evaluation von TFS-Anfragen ndet eine Uni kation mit der in der
Anfrage spezi zierten Beschreibung statt. Wird in einer Anfrage ein strukturelles Constraint (als Attribut-Wert-Paar) angegeben, so wird bei der Evaluation nur uberpruft, ob
diese Beschreibung einen Widerspruch mit den in der Spezi kation de nierten Typen hervorruft. Wo dies nicht der Fall ist, kann die Strukturbeschreibung aus der Anfrage mit
der Information uni ziert werden, welche ein die Anfrage erfullender Typ mitbringt. Das
Resultat kann eine gegenuber dem in der Worterbuchspezi kation enthaltenen Eintrag
informationsreichere Struktur sein.
Solche \in die Daten aus der TFS-Wissensbasis hineinuni zierte" Information stort in
der Regel nicht besonders, wenn Lexikoneintrage in sprachverarbeitenden Anwendungen,
insbesondere bei der automatischen Analyse sprachlicher A uerungen verwendet werden.
Sollen dagegen in einer interaktiven Anwendung in der Lexikographie Worterbucheintrage uberpruft werden, und soll festgestellt werden, inwiefern die Eintrage spezielle
Merkmale aufweisen, dann ist die Uni kation mit der Anfrage kein geeignetes Mittel fur
die Suche nach Belegen31 . Der Lexikograph mochte dann genau die Eintrage sehen, fur
die eine bestimmte Eigenschaft de niert ist, und nur diese. Ihn interessiert bei der U berprufung von Lexikoneintragen nicht, oder nicht in erster Linie, welche Eintrage auch eine
Interpretation zulassen, in der bestimmte Eigenschaften (z.B. im Kontext) aktualisiert
werden konnen, ohne da es einen Widerspruch mit der De nition gibt.
Nachfolgend wird ein Beispiel gegeben, in welchem die fur NLP-Systeme ubliche Verfahrensweise, Anfrage und Lexikonmodell nur auf Widerspruchsfreiheit zu testen, fur eine
Anwendung zum Test von Worterbucheintragen nicht ausreicht. Es handelt sich dabei
um die bereits oben in Abschnitt 4.6.3 diskutierte Modellierung der Kohyponyme von EN
30 D.h. der Name einer lexikalischen Klasse, z.B.: \?perc & v-s-onp": die Anfrage enthalt zwei Typnamen (Klassende nitionen), namlich perc und v-s-onp.
31 Dasselbe Problem stellt sich auch bei Anwendungen zur Generierung, innerhalb von NLP-Systemen.

see, d.h., genereller, um die Unterscheidung zwischen klassenkonstitutiven Merkmalen


und zusatzlichen Merkmalen ohne Klassi kationsrelevanz32.
Der Lexikograph mochte beispielsweise mit einer einzigen Anfrage nur diejenigen Verben aus der TFS-Wissensbasis abrufen konnen, welche in ihrer De nition das Merkmal \[INTEREST: +]" enthalten33 . Diese Aufgabenstellung wurde in einer experimentellen
TFS-Kodierung des von Atkins beschriebenen Fragments in der folgenden, etwas unorthodoxen Weise gelost. Bekanntlich mu in der Modellierung die Verwendung mehrerer,
kreuzklassi zierter Teilhierarchien simuliert werden; diese Losung wird sinngema fur die
Abfrage mitubernommen.
Es wird ein eigener Typ fur das Vorhandensein der relevanten Merkmale, INTEREST,
SALIENCE, und DISTANCE de niert (vgl. 5.14).
(5.14) pct-interest[FEG:
<fe fe[FE: (percept-actual-ent |
pct-salience[FEG:

<fe fe[FE:

pct-distance[FEG:

<fe fe[FE:

percept-actual-hum |
percept-target)[INTEREST: + | -]]>].
(percept-actual-ent |
percept-actual-hum |
percept-target)[SALIENCE: + | -]]>].
(percept-actual-ent |
percept-actual-hum |
percept-target)[DISTANCE: + | -]]>].

Auerdem wird fur jeden positiven bzw. negativen Wert ein eigener Typ festgelegt und
als Untertyp der in Statement 5.14 festgelegten Typen de niert (vgl. 5.15)34:
(5.15) pct-interest-plus[FEG: <fe fe[FE: [INTEREST: + ]]>].
pct-salience-plus[FEG:
pct-distance-plus[FEG:

<fe fe[FE:
<fe fe[FE:

[SALIENCE: + ]]>].
[DISTANCE: + ]]>].

pct-interest-minus[FEG:
pct-salience-minus[FEG:
pct-distance-minus[FEG:

<fe fe[FE:
<fe fe[FE:
<fe fe[FE:

[INTEREST:
[SALIENCE:
[DISTANCE:

-]]>].
-]]>].
-]]>].

pct-interest = pct-interest-plus | pct-interest-minus.


pct-salience = pct-salience-plus | pct-salience-minus.
pct-distance = pct-distance-plus | pct-distance-minus.

Die einzelnen Beschreibungen von Verblesarten erben (vgl. 5.16) nun jeweils neben den
\ublichen" syntaktischen und semantischen Beschreibungen auch von den partiellen Beschreibungen, die in der separaten Teilhierarchie von \Percept-Feature-Typen" (vgl. Statements 5.15) angegeben sind. Verben, bei denen es keine Festlegung auf einen positiven
32 [Atkins 1994] hatte vorgeschlagen, da die Kohyponyme von EN see durch zusatzliche Merkmale
voneinander unterschieden werden sollen, welche spezielle Eigenschaften der jeweiligen Fullung der
percept-Rolle beschreiben; die Merkmale sind in Abschnitt 4.6.3 eingef
uhrt und diskutiert worden;
dort in der Tabelle 4.14, Seite 141, sind die relevanten Fakten zusammengestellt. Oben, in Abschnitt
4.6.3, wurde die Modellierung diskutiert: soll eine einzelne tiefe, feinkornige Hierarchie entwickelt werden, oder soll auf eine Modellierung durch Kreuzklassi kation und multiple Vererbung zuruckgegri en
werden? Die beiden Optionen sind in Abbildung 4.13 einander gegenubergestellt worden.
33 Eine praktische Erleichterung im Lexikographen-Interface ware es, wenn Attribute, deren Wert unspezi ziert ist (d.h. TOP oder der jeweils relevante unterspezi zierte Aufzahlungstyp) auf Wunsch des
Lexikographen bei der Ausgabe unterdruckt werden konnten. Die semantischen Strukturen von Acquilex enthalten zum Beispiel sehr groe Listen von Attributen. Viele Beispieleintrage enthalten aber
nur sehr wenig Werte fur diese Attribute. Je detaillierter (mehr Attibute) ein Lexikon, desto groer
ist dieses Problem.
34 Diese De nitionen konnten sinngema auch als Macros von TFS festgelegt werden.

oder negativen Wert gibt, erben keine Percept-Feature-Typen (vgl. die Eintrage s.v. see
und glimpse). Die Statements 5.16 kodieren die Informationen aus der Tabelle 4.14, Seite
141, die in dieser Form von [Atkins 1994] beschrieben wurden.
(5.16) see-perc-thing
< perc-act-ent, see-lem,
v-s-onp.
glimpse-perc-thing < perc-act-ent, glimpse-lem, v-s-onp.
notice-perc-thing < perc-act-ent, notice-lem,
v-s-onp,
pct-interest-plus.
spy-perc-thing
< perc-act-ent, spy-lem,
v-s-onp,
pct-interest-plus.
espy-perc-thing
< perc-act-ent, espy-lem,
v-s-onp,
pct-interest-plus.
spot-perc-thing
< perc-act-ent, spot-lem,
v-s-onp,
pct-interest-plus,
pct-salience-minus.
behold-perc-thing < perc-act-ent, behold-lem,
v-s-onp,
pct-interest-plus,
pct-salience-plus,
pct-distance-plus.
witness-perc-thing < perc-act-ent, witness-lem, v-s-onp,
pct-interest-plus.
sight-att-tgt
< sight-lem, att-tgt,
v-s-onp,
pct-interest-plus,
pct-distance-plus,
tgt-spec-minus.
descry-att-tgt
< descry-lem, att-tgt,
v-s-onp,
pct-interest-plus,
pct-distance-plus,
pct-salience-minus,
tgt-spec-plus.

In Abbildung 5.18 ist die Teilhierarchie der englischen Wahrnehmungsverben angegeben,


fur welche die in den Statements in 5.16 de nierten Zusammenhange relevant sind35 .
Auf der Grundlage dieser Spezi kationen kann sowohl eine \lexikographische Abfrage"
erfolgen, als auch eine Abfrage, bei der TFS nur auf Typvertraglichkeit zwischen Anfrageausdruck und lexikalischer Spezi kation uberpruft, wie dies in der Regel fur sprachverarbeitende Systeme ausreicht.
Ein Beispiel fur die \lexikographische" Abfrage ist in Statement 5.17 angegeben.
(5.17)
?pct-interest-plus.
Wir wollen alle Lesarten aus der TFS-Modellierung extrahieren, fur die das PerceptFeature \[INTEREST: +]" de nitionsrelevant ist. Ein Eintrag aus dem Ergebnis ist in 5.18
angegeben36 .
(5.18)
notice-perc-thing
[LEMMA: "notice",
FEG:
<fe
[FE: experiencer-nonint

35 In Abbildung 5.18 ist \[SPECIFIC: + j-]" als zusatzliches Feature fur percept-target mitangegeben.
Dieses Merkmal ist analog zu den anderen de niert, wurde aber in die Statements 5.14 bis 5.16 nicht
eigens aus dem vollstandigen TFS-Modell ubernommen.
36 Zu der Ergebnisstruktur in 5.18 und in den folgenden Beispielen ist das aus der Anfrage ubernommene
Attribut-Wert-Paar mit \<--" markiert.

[INTENTION: -,
SORT:
human],
GF: subj,
PT: np]
fe
[FE: percept-actual-ent
[SORT:
entity,
INTEREST: +], <-GF: comp,
PT: np]>,
EVENT: vis-mod
[MODALITY: vis,
DURATION: duration]].

Das vollstandige Anfrageresultat fur 5.17 enthalt auerdem analoge Eintrage fur die Verben spot, behold, witness, sight, descry, spy, espy. Es enthalt nicht see und glimpse.
Diese Verben fehlen, weil fur sie nicht ausdrucklich \[INTEREST: +]" de niert ist.
Sinngema fuhrt die Anfrage nach Verben, die zusatzlich zu dem Merkmal \[INTEREST:
+]" das Merkmal \[SALIENCE: -]" haben (5.19), d.h. zus
atzlich auch vom Typ pct-salience-minus erben, lediglich zu den Eintr
agen fur descry und spot.
(5.19) ?pct-interest-plus & pct-salience-minus.
Man kann dieselbe Datenbasis auch im Sinne der in einem NLP-System ublichen Anfragen
abfragen. Beispielsweise kann man nach allen Verben fragen, bei denen das zweite Frame
Element aus dem Kontext die Markierung \[INTEREST: -]" erhalten kann (5.20). Dem
entspricht die ubliche Evaluation mittels Uni kation: die Featurestruktur, die in der Anfrage enthalten ist, wird mit den typvertraglichen Objekten der Wissensbasis uni ziert.
Alle Objekte werden ausgegeben, fur die dieses Verfahren nicht zu einem Widerspruch
(feature clash) fuhrt. In unserer Datenbasis ist kein Verb enthalten, fur das ausdrucklich
\[INTEREST: -]" de niert ware, jedoch konnen die Verben see und glimpse sowohl mit
\[INTEREST: +]" als auch mit \[INTEREST: -]" auftreten (vgl. 5.21). Die Verben aus 5.18
oben, d.h. die Resultate der Anfrage 5.17, werden naturlich nicht ausgegeben.
(5.20)
?[FEG: <fe fe[FE:[INTEREST: -]]>] & perc-act-ent.
(5.21)

see-perc-thing
[LEMMA: ee",
FEG:
<fe
[FE: experiencer-nonint
[INTENTION: -,
SORT:
human],
GF: subj,
PT: np]
fe
[FE: percept-actual-ent
[SORT:
entity,
INTEREST: -], <-GF: comp,
PT: np]>,
EVENT: vis-mod
[MODALITY: vis,
DURATION: duration]].

glimpse-perc-thing
[LEMMA: "glimpse",
FEG:
<fe
[FE: experiencer-nonint
[INTENTION: -,
SORT:
human],
GF: subj,
PT: np]
fe
[FE: percept-actual-ent
[SORT:
entity,
INTEREST: -], <-GF: comp,
PT: np]>,
EVENT: vis-mod
[MODALITY: vis,
DURATION: short]].

Die Moglichkeiten, durch alternative Angabe von Typnamen oder von strukturellen Beschreibungen entweder alle nicht-kon igierenden Eintrage der Datenbasis zu erhalten, oder
nur genau jene, fur die ein bestimmtes Merkmal de niert ist, ist sehr interessant fur den
multifunktionalen Einsatz von TFS; der Lexikograph ist meistens eher an der \engeren" Interpretation interessiert, ahnlich wie automatischer Klassi kator in einer Wissensreprasentationsprache. Umgekehrt will man in einem Sprachverarbeitungssystem, etwa
bei der Prozessierung von aufeinanderfolgenden Satzen, sicherstellen, da alle kontextuell
\moglichen" Losungen gefunden werden37 .

37 Die technischen und implementierungsseitigen Aspekte der Unterscheidung, deren Auswirkungen hier
beschrieben worden sind, werden von [Emele 1996] diskutiert. Der vorliegende Abschnitt geht auf
Reaktionen von Martin Emele und Katja Kruger auf die hier vorgeschlagene (im Sinne der De nition
von TFS 6.1 unorthodoxe) Modellierung zuruck.

[actual entity PERCEIVED]


taste
adj-phrase:
[example: "The toast tasted horribly burnt."]
[actual entity PERCEIVED]

taste

[inferred IMPRESSION]

adj-phrase:

[inferred IMPRESSION]
to [PERCEIVER]
[example: "I knew that the dish would taste too salty to her."]
[actual entity PERCEIVED]
taste
adj-phrase:
[example: "The beer tasted sharp and frothy."]

[state-of-affairs IMPRESSION]

[actual entity PERCEIVED]

[state-of-affairs IMPRESSION]
to [PERCEIVER]

taste

adj-phrase:

[example: 
Ollie's coffee tasted different to him."]

[actual entity PERCEIVED]


taste
adj-phrase:
[value-judgement IMPRESSION]
[example: 
A mess tin full of very hot tea that tasted good."]
[actual entity PERCEIVED]

taste

adj-phrase:

[value-judgement IMPRESSION]
to [PERCEIVER]

[example: "The cocoa tasted too sweet to me."]


[PERCEIVER non-intentionally] taste
[actual entity PERCEIVED]
[example: "The panel also tasted prime bacon rashers from Gateway."]
[PERCEIVER intentionally]
taste for
[example: "Lucille tasted the soup for arsenic."]

[actual entity PERCEIVED]

[actual entity PERCEIVED]


taste like
[example: "Roast rattlesnake tastes like chicken."]

[state-of-affairs IMPRESSION]

[actual entity PERCEIVED]

taste like

[value-judgement IMPRESSION]
to [PERCEIVER]
[example: "The rind tasted like a nutty lemon to her."]
[actual entity PERCEIVED]
taste of
[state-of-affairs IMPRESSION]
[example: "His toast in the morning tasted of bleach."]

Abbildung 5.12: Tabellarische U bersicht uber die Lesarten von EN [to] taste

Template
des
Zielwoerterbuchs

TFS-Hierarchie
des Lexikons

Flache
Rekodierung
der
TFSEintraege

Ad-hocAbfrage

TFS

TFSWoerterbucheintraege

TFS

Auffuellen
des
Zieltemplates
AttributWert-PaarListen

gawk
Gefuelltes
Zieltemplate

Abbildung 5.13: Schema des Lexikonexports: von TFS zu Anwendungslexika

[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE

non-intenzionale]
non-intenzionale]
non-intenzionale]
non-intenzionale]
non-intenzionale]
non-intenzionale]

notice
notice
notice
notice
notice
notice

[sorgente/stimolo PERCEPITI]
che
[evento PERCEPITO]
frase incisa:
[evento PERCEPITO]
se/qu[evento PERCEPITO]
gerundio (-ing): [evento PERCEPITO]

Abbildung 5.14: Tabellarische U bersicht fur die Lesarten von EN [to] notice, mit italienischer Metasprache

ENGCG
@ SUBJ
@ OBJ
@ IOBJ
@ APP
@ PCOMPL-S
@ PCOMPL-O
@ P
@ O-ADVL
<

Beispiel
DELIS
The man ran.
subj, np
He tastes the soup.
comp, np
I gave the man a book.
comp, np
Helsinki, the capital of Finland, ... np
He is a teacher.
predi-s, np
I consider him a fool.
predi-o, np
He looks like a fool.
predi-s, pp
He ran two miles.
comp, advl

Rollen
..., exper, ...
..., pct, ...
n.r.
n.r.
..., judgemt., ...
..., judgemt., ...
..., judgemt., ...
n.r.

Abbildung 5.15: Abbildungen zwischen DELIS und ENGCG fur den Bereich der Subkategorisierung (Beispiele aus [Voutilainen et al. 1992])

CORPUSABFRAGEWERKZEUGE

ANNOTIERTES CORPUS

EXTRAHIERTE
CORPUSBELEGE

TFS
SEARCH
CONDITION

GUI

GENERATOR

AUSWAHL DER

LEXIKONMODELL

..

LEXIKONEINTRAGE
MR

MAPPING-REGELN

Abbildung 5.16: Anwendung der Export-Verfahren zur Belegsuche in Corpora

34595: han fish . others swore


34986:
35003:
35088:
35106:
35129:
35230:

tastes real horrible .


etty good though . this
ight , and even ollie's
fee , although in truth
oucester and , although
my fingers . chateau

35258:
35394:
35457:
35646:
35679:
35741:

only good for you , but


any bird you can buy .
varieties more earthy .
ill taste sweeter . the
r she was a poor cook ,
stes delicious . jacket

35949:
35975:
36025:
36035:
30578:

do organically-grown
anic or inorganic beans
t . you may notice that
re pregnant . ``because
han price . with all 26

< they tasted ne > , if only you could find an army of


< it tastes horrible > and i spit it out . the food tastes pretty
< co ee tastes good > , and i 'm feeling better already .
< co ee tasted di erent > to him . gower dredged up a compliment for
< it tasted vile > without his usual complement of
< it tastes creamy > , is relatively low in fat . it is also
< saintjustin tasted thin > , raw , and hardly meriting canonisation .
< which tastes good > too . it would be a waste , and it would
< these tasted nutty > and smelt somewhat of turmeric .
< they tasted woody > , the fluid strands of trotter punctuated
< milk tasted vile > , as=if it were milk from a cow who had
< it tasted good > . it had no perceptible effect on
< potatoes taste great > , but part-boil them first to speed up
< vegetables taste better > ? with french beans , the tasters could
< which tasted sweeter > . foods rich in dietary fibre taste a
< food tastes di erent > when you are pregnant . `` because it
< it tastes revolting > when you kiss me . '' with jo , she went
< wines tasted available > for under a fiver , however , and one

Abbildung 5.17: Automatisch aus BNC extrahierte Belege fur EN [to] taste + ADJ

tgt-specificity
pct-distance

tgt-spec-plus
pct-distance-plus
tgt-spec-minus

descry-att-tgt
sight-att-tgt

pct-interest-minus

pct-features

notice-perc-thing

pct-interest
pct-interest-plus

spy-perc-thing
espy-perc-thing

pct-salience-minus

spot-perc-thing

pct-salience
pct-salience-plus

behold-perc-thing
witness-perc-thing

pct-distance-minus

Abbildung 5.18: Teilhierarchie der englischen Wahrnehmungsverben, nach den percept


features von [Atkins 1994]

Kapitel 6
Strukturierung kontrastiver
Beschreibungen
In den vorausgehenden Kapiteln wurde die Strukturierung einsprachiger Worterbucher
diskutiert. Im folgenden Kapitel geht es um zweisprachige Worterbucher und die ihnen
zugrundeliegenden kontrastiven Beschreibungen. Wir schlagen vor, monolinguale Worterbucher so zu verbinden, da kontrastive Beschreibungen mit moglichst geringem Mehraufwand gegenuber den monolingualen Beschreibungen erstellt werden konnen. Die Kombination wohlstrukturierter einsprachiger Worterbucher fuhrt dazu, da die zweisprachigen
Worterbucher nicht einfach nur Listen von A quivalentzuordnungen, sondern ihrerseits
strukturiert sind und auf einem klassi katorischen Ansatz beruhen. Hier wird eine Klassi kation kontrastiver Beschreibungen vorgeschlagen, die { mindestens fur den Bereich
der lexikalischen U bersetzungsprobleme bei Verben { hinreichend allgemein ist, als sie fur
Transfer- und Interlingua-Ansatz, und fur verschiedene Grammatikformalismen gleichermaen benutzt werden kann. Anhand von Modellierungsbeispielen wird dies in Abschnitt
6.4.1 und 6.4.2 illustriert.
Diese kontrastive Klassi kation lat sich auf verschiedene Weisen aufbauen und motivieren. In einem Ansatz, der jeweils einzelsprachliche Klassi zierungen des Subkategorisierungsverhaltens von Verben hat, kann man die syntaktischen Klassen von Quell- und
Zielsprache kombinieren und die Resultate wiederum klassi zieren. Dies wird anhand der
Subkategorisierungs-Templates von LFG gezeigt (vgl. Abschnitt 6.4.1); das Resultat der
Kombination quell- und zielsprachlicher Templates konnte man als \zweisprachige Templates" bezeichnen.
In einem interlingua-artigen U bersetzungssystem, wie es auf der Grundlage von HPSG
in [Heid/Kuhn 1994] vorgestellt wurde (vgl. auch die U berblicksdarstellung in Abschnitt
1.2.2 oben), werden keine expliziten zweisprachigen Worterbucheintrage abgelegt, sondern
das System kombiniert Informationen aus monolingualen Beschreibungen in geeigneter
Weise. Der Nutzen einer kontrastiven Klassi kation fur ein solches System liegt in ihrer
Anwendbarkeit als Modellierungs-Richtlinie fur die einzelsprachlichen Beschreibungen.
Neben diesen Anwendungen, die relativ eng an bestehende Systeme angelehnt sind,
kann man sich fragen, welche Resultate fur zwei- und mehrsprachige Worterbucher sich
aus der Kombination von parallelen monolingualen Worterbucheintragen im Stil von DELIS (vgl. oben, Kapitel 5) ergeben. Mindestens fur ein System zur Unterstutzung der
lexikographischen Arbeit beim Worterbuchaufbau eignet sich das Ergebnis sehr gut. Beispiele hierfur werden in Abschnitt 6.5 diskutiert.
Die Kombination von monolingualen Teilbeschreibungen ist technisch machbar und
fuhrt zu sinnvollen Anwendungen. Man mu sich in diesem Zusammenhang aber fragen,
ob die vorgeschlagene Losung nur technische Relevanz hat, oder ob sie daruberhinaus
einen eigenen Generalisierungswert aufweist. Um diese Frage beantworten zu konnen ist
es sinnvoll, zunachst bestehende Klassi kationen von U bersetzungsproblemen zu betrachten, und zu uberprufen, welcher Nutzen aus solchen Klassi kationen uberhaupt gezogen
werden kann.

Die Behauptung in der vorliegenden Untersuchung ist, da eine Restrukturierung der
bestehenden kontrastiven Problemklassi kationen zur Formulierung kontrastiver Klassen
fuhrt, die sich sehr gut fur die oben skizzierten Verfahren der Kombination monolingualer
Subkategorisierungsklassen und fur die Anwendung in MU -Systemen eignen.
In diesem Kapitel werden deswegen zunachst die wichtigsten Ansatze zur Klassi kation kontrastiver Probleme beschrieben und verglichen; hieraus ergeben sich Vorschlage
fur eine Vereinfachung der bestehenden Klassi kationen und ein Kriterieninventar fur unseren eigenen Klassi kationsversuch: die Problemklassen werden nach zwei Dimensionen
eingeteilt: einerseits nach linguistischen Beschreibungsebenen, andererseits danach, ob das
Lemma selbst, das vom Lemma subkategorisierte Material oder beide von Unterschieden
zwischen Quell- und Zielsprache betro en sind.
Die Argumentation hier in diesem Einleitungsabschnitt unterscheidet sich nur in der
Anordnung der einzelnen Schritte von der Struktur des restlichen Kapitels: hier haben
wir behauptet, da es aus praktischer, bzw. \technischer" Sicht sinnvoll ist, modulare
einsprachige Worterbucher zu kombinieren und die Kombinationsresultate wiederum zu
klassi zieren. Die Nutzlichkeit eines solchen Verfahrens soll anhand von LFG und Transfer,
HPSG und Interlingua, und anhand der DELIS-Worterbucher nachgewiesen werden. Wir
haben dann weiterhin behauptet, da die Analyse bestehender Klassi kationen lexikalischer U bersetzungsprobleme zeigt, da die \kontrastiven Klassen" durchaus linguistischen
und lexikographischen Generalisierungswert haben und mit den Ergebnissen bisheriger
Forschungen in maschineller U bersetzung, kontrastiver Linguistik und U bersetzungswissenschaft gut zusammenpassen.
Aus praktischen Grunden wird die Phanomenklassi kation in diesem Kapitel zuerst
beschrieben, bevor ihre Anwendungen gezeigt werden (sonst mute zuviel vorweggenommen werden): zunachst wird ein U berblick uber bisherige Versuche zur Klassi kation
von U bersetzungsproblemen gegeben (vgl. Abschnitte 6.1 und 6.1.3) und die ihnen jeweils zugrundeliegenden Kriterien werden identi ziert. Darauf aufbauend wird eine eigene phanomenologische Klassi kation spezi ziert (vgl. Abschnitt 6.2) und anhand von
Beispielmaterial ausfuhrlich illustriert (vgl. Abschnitt 6.3).
In den Abschnitten 6.4 und 6.5 werden die Anwendungen fur die maschinelle U bersetzung und fur die computergestutzte zweisprachige Lexikographie diskutiert.

6.1 Klassi zierung von U bersetzungsproblemen


6.1.1 Motivation fur die Einfuhrung einer Problemklassi kation

In der Literatur zur U bersetzungswissenschaft, zur kontrastiven Linguistik und zur maschinellen U bersetzung gibt es eine Reihe von Vorschlagen fur die Klassi zierung von
U bersetzungsproblemen. U bersetzungswissenschaft, kontrastive Linguistik und Stilistik1
haben eine lange Tradition solcher Untersuchungen, die hier nachzuzeichnen den Rahmen dieses Kapitels sprengen wurde. Daneben haben zum Teil auch U bersetzer einfach
1 Vgl. z.B. [Malblanc 1968], [Vinay/Darbelnet 1958]: dort wurden einzelne Beispiele gesammelt und
\anekdotisch" beschrieben, aber selten in eine generellere Klassi kation eingebracht. Die Tradition
solcher Untersuchungen geht aber (mindestens) auf Saussure zuruck. Da solche Arbeiten noch immer
praktische Relevanz haben, zeigt z.B. die Tatsache, da [Vinay/Darbelnet 1995] 1995 in Englischer
U bersetzung in der Benjamins Translation Library erschienen ist.

Phanomene notiert, die ihnen bei ihrer Arbeit aufgefallen sind2. Auch im Rahmen von
Forschungen zur valenztheoretischen Beschreibung von lexikalischen Einheiten wurden
umfangreiche U berlegungen zu kontrastiven Klassi zierungen und ihrer Benutzung in Valenzlexika angestellt3.
In der Forschung zur maschinellen U bersetzung sind erst ungefahr seit 1988-1990 in
nennenswertem Umfang Arbeiten zur Klassi zierung von U bersetzungsproblemen vero entlicht worden4 . Zum Teil (vgl. etwa die Arbeiten von [Bemova et al. 1988] oder Arbeiten im Rahmen von Eurotra) dienen die Beschreibungen vor allem dazu, zu zeigen,
welche Phanomene von einem bestimmten maschinellen U bersetzungssystem oder einer
Komponente davon behandelt werden konnen. Solche Beschreibungen zielen nicht darauf
ab, groe Fragmente abzudecken, sondern geben eher eine Au istung der speziellen Problemfalle, die ein gegebenes System behandeln kann. In anderen Arbeiten, etwa von Dorr,
wird versucht, den Zusammenhang herauszustellen, welcher zwischen der Beschreibung
linguistischer Phanomene einerseits und der Modellierung dieser Phanomene in maschinellen U bersetzungssystemen andererseits besteht. Dorr weist mit Recht darauf hin, da
eine strukturierte Materialsammlung eine erste Grundlage fur die Strukturierung von Lexikon und Grammatik und fur ein wohlstrukturiertes System insgesamt ist.
Zweierlei Grunde sprechen dafur, lexikalische U bersetzungsprobleme zunachst auf der
Phanomenebene zu klassi zieren:
 die empirischen Klassi zierungen konnen Ausgangspunkt f
ur Klassen und Genera
lisierungen in einem formal modellierten Ubersetzungsworterbuch sein;
 eine empirische Klassi kation erlaubt es, die relative Bedeutung der jeweils benutzten (computer)linguistischen Reprasentation fur die Behandlung von U bersetzungsproblemen in verschiedenen Systemen abzuschatzen. Manche Probleme in einem bestimmten System hangen mehr mit der dort benutzten Reprasentation zusammen,
als mit spezi schen lexikalischen Problemen. Die empirische Klassi kation kann insofern auch als Ausgangspunkt fur vergleichende Systemevaluation dienen.
Beide Aspekte werden im folgenden etwas detaillierter diskutiert.

6.1.1.1 Ausdruck von Generalisierungen { Lexikonstrukturierung


Das Fehlen von Moglichkeiten, kontrastive deskriptive Generalisierungen auch in elektronischen Worterbuchern auszudrucken, wurde z.B. von [Fontenelle/Adriaens/De Braekeleer 1993] als eines der zentralen Probleme der lexikalischen Modellierung im System
2 Vgl. die Arbeit von [Zimmer 1990], die eine groe Menge von deutsch-franzosischen U bersetzungsbeispielen enthalt und diese nach sehr allgemeinen Kriterien, zum Teil semantischer, zum Teil syntaktischer Art einteilt. Bei Zimmer kann man nicht im strengen Sinn von einer Klassi kation von U bersetzungsproblemen sprechen, es handelt sich eher um eine thematisch organisierte Beispielsammlung.
3 Solche Lexika wurden unter anderem fur kontrastive Fragmente Deutsch-Japanisch, DeutschUngarisch, Deutsch-Finnisch mit Beteiligung des Instituts fur deutsche Sprache erarbeitet. Kontrastive
Studien Deutsch/Italienisch, bei denen eine Klassi kation der U bersetzungsprobleme aufgestellt wird,
hat kurzlich Koch (vgl. [Koch 1995a], [Koch 1995b], [Koch 1994a], [Koch 1994b]) auf der Grundlage
von Arbeiten Tesnieres vorgestellt. Einen bibliographischen U berblick auf dem Stand von Dezember
1986 gibt Schumacher's Valenzbibliographie ([Schumacher 1987]), der Stand von 1992 ist bei [Storrer
1992] aufgearbeitet. Vorschlage fur ein kontrastives Valenzworterbuch, aus der Sicht des DeutschFinnischen Sprachvergleichs, macht [Jarventausta 1994].
4 Bemerkenswert ist, da in den Arbeiten zur maschinellen U bersetzung wiederum fast nie auf die
Ergebnisse der anderen Bereiche referiert wird.

Metal bezeichnet. Fontenelle et al. haben die Behandlung von \grooming verbs" im
franzosisch $ englischen Teilsystem von Metal untersucht und festgestellt, da Regula-

ritaten bei der U bersetzung von Verben wie FR se laver les mains, se raser, usw. in den
Worterbuchern von Metal nicht einheitlich beschrieben sind. Es gibt auch keine Moglichkeit, eine allgemeine Regel fur Verben einer bestimmten Klasse und fur deren U bersetzung
in die Zielsprache anzugeben. Zwar weisen die Verben sowohl in der Quellsprache als auch
in der Zielsprache ein homogenes syntaktisches Verhalten auf, so da sich die Formulierung einer klassenweisen U bersetzungsregel nahezu aufdrangt, jedoch sind im System
keine Modellierungshilfsmittel vorhanden, die die Formulierung einer solchen allgemeinen
Abbildung erlauben wurden, die spater bei der De nition einzelner Worterbucheintrage
wiederverwendet werden konnte5 .
Einzelne Forscher im Bereich der maschinellen U bersetzung sehen im Fehlen von Generalisierungsmoglichkeiten in kontrastiven Lexika durchaus ein De zit, jedoch ist uns
bisher kein System bekannt, welches in groerem Umfang kontrastive lexikalische Klassi zierungen verwenden wurde oder sonst einheitliche Losungen fur ganze Phanomenklassen
anbieten wurde. Das von Dorr entwickelte experimentelle U bersetzungssystem Unitran
setzt zwar auf einer kontrastiven Problemtypologie auf, deckt aber nur ein kleines Fragment ab. Die Frage der Lexikonstrukturierung gehort eher zu dem Bereich des \Linguistic
Engineering", der sich erst allmahlich konstituiert.

6.1.1.2 Vergleich und Evaluierung von Systemen


Auer dem Nutzen einer kontrastiven Klassi zierung fur die Lexikonstrukturierung (wenn
die Beispiele strukturiert erfat sind, konnen das System-Worterbuch und die darauf
aufsetzende Modellierung besser strukturiert werden), gibt es weitere Motivation fur die
Einfuhrung einer Klassi zierung von kontrastiven Problemen. Insbesondere sind kontrastive Klassi zierungen ein geeignetes Hilfsmittel beim Vergleich von U bersetzungssystemen
und fur die Entwicklung von Testmaterial.
Bei der Evaluation von U bersetzungssystemen kann meistens nur die Analyse- und
Generierungsleistung, bzw. die U bersetzungsleistung insgesamt, verglichen werden. Die in
den MU -Systemen verwendeten Zwischenreprasentationen unterscheiden sich in der Regel
so stark, da ein Vergleich nahezu nicht moglich ist, und nur Input und Output betrachtet
werden konnen.
Liegt eine kontrastive Klassi zierung von Problemtypen vor, so kann man ermitteln,
welche Systeme in der Lage sind, bestimmte Problemtypen zu behandeln. Auerdem kann
damit durch Test verschiedener Beispiele, die in dieselbe Problemklasse fallen, uberpruft
werden, ob sich das System relativ zu einer Klasse von U bersetzungsproblemen konsistent
verhalt.
5 Auf ahnliche Probleme hat Bouillon im Zusammenhang mit dem Suissetra-System zur U bersetzung
von Lawinen-Warnungen hingewiesen (Personliche Mitteilung von Pierrette Bouillon, Genf): Zwar
stellt sich dort nicht unbedingt das Problem, da analoge Sachverhalte auf unterschiedliche Weisen
und mit unterschiedlichen U bersetzungsregeln ausgedruckt werden, aber das Fehlen von Generalisierungsmoglichkeiten fuhrt zu hoher Redundanz im Worterbuch. Bouillon gibt das Beispiel der von
Windrichtungen abgeleiteten Adjektive (nordlich, ostlich, sudlich, westlich), fur die jeweils einzelne
U bersetzungsregeln (z.B. fur vent d'ouest) angegeben werden mussen in denen die U bersetzung der
Adjektive durch eine Prapositionalphrase mit de (d'est, d'ouest, de nord, de sud, usw.) jeweils neu
und ohne Querverweis wiederaufgebaut wird. Sechzig Prozent der Angaben in den Eintragen konnten
eingespart werden, wenn eine Klassi zierung und ein Verweis auf eine allgemeine Regel moglich ware.

Dies setzt allerdings die Entwicklung paralleler monolingualer Testsuites und konstrastiver
Testmaterialien voraus. Testsuites sind Sammlungen von Beispielsatzen, mit denen das
Verhalten eines NLP-Systems uberpruft werden soll. In der Regel werden die Beispielsatze
einer Testsuite nach linguistischen Kriterien (beispielsweise syntaktische, morphosyntaktische Beschreibung) annotiert und klassi ziert. In dem seit 1994 laufenden LRE-Projekt
TSNLP werden Richtlinien fur die Erstellung von Testsuites erarbeitet.
Wie bei Lexika, spielt auch bei Testsuites die Modularitat und die systematische Strukturierung eine groe Rolle. In [Hildenbrand/Heid 1991] wurde erstmals gezeigt, wie sich
monolinguale syntaktische Klassi zierungen im Lexikon auch fur die Erstellung einer Testsuite ausnutzen lassen. Dort wurde anhand der im maschinellen U bersetzungssystem SYSTRAN vorliegenden Subkategorisierungsklassen fur Verben eine Testsuite aufgebaut,
die nach den Verben parameterisiert war, ansonsten aber nur einen kontrollierten, trivial
ubersetzbaren Minimalwortschatz enthielt. Die Beispielsatze wurden nach den Subkategorisierungsklassen des Systems angeordnet und im deutsch $ franzosischen Teil nach
kontrastiven Problemklassen eingeteilt. In [Hildenbrand/Heid 1991] wurde der Schwerpunkt auf die monolingualen Klassi zierungen gelegt. In TSNLP wurde der Gedanke der
Modularisierung von Testsuites aus [Hildenbrand/Heid 1991] wieder aufgenommen und
als eines der wichtigen Designkriterien fur die in TSNLP zu entwerfenden Testsuites identi ziert.
Durch den Einsatz von Testsuites ergibt sich eine Moglichkeit, die Evaluierung und
den Vergleich maschineller U bersetzungssysteme gegenuber anderen, fruheren Verfahren
etwas zu objektivieren, da die intuitive Abschatzung der U bersetzungsadaquatheit durch
gezielte monolinguale und kontrastive Untersuchungen anhand einer system-externen bzw.
-internen empirischen Klassi kation ersetzt wird. Man kann also kontrastive Phanomenklassi zierungen als Rohmaterial fur die Evaluierung und den Test von maschinellen U bersetzungssystemen verwenden. Die Arbeiten von [Hildenbrand/Heid 1991] haben gezeigt,
da Klassi zierungen aus den Lexika des zu evaluierenden Systems einen geeigeten Ansatzpunkt hierfur darstellen.

6.1.2 Ansatze zur Klassi kation von kontrastiven Problemen in der


Forschung zur maschinellen U bersetzung
6.1.2.1 U berblick

In Forschungsarbeiten zur maschinellen U bersetzung wurden verschiedene Ansatze zur


Klassi zierung von konstrastiven Problemen vero entlicht. Im Rahmen von Arbeiten an
einem tschechisch-russischen maschinellen U bersetzungssystem haben Bemova et al. ([Bemova et al. 1988]) einige Typen von Nominalphrasen und Verbalphrasen beschrieben, die
in ihrem System behandelt werden konnen. Die Klassi kation erfolgt primar als Beschreibung der Datengrundlage des Systems, nicht mit Blick auf weitergehende Generalisierungen.
Im Rahmen des Eurotra-Projekts wurden verschiedene Arbeiten zur Klassi zierung kontrastiver Probleme vero entlicht. Die umfangreichste Arbeit stellt die Sammlung von U bersetzungsproblemen fur Eurotra dar, die im Rahmen der Eurotra-6Designstudien von [Lindop/Tsujii 1991] zusammengestellt wurde. Ziel dieser Problemsammlung ist es, auf Schwierigkeiten hinzuweisen, die sich bei der Transfer-Phase des
Eurotra-Systems ergeben. [Lindop/Tsujii 1991] geben Beispiele aus verschiedenen europaischen Sprachen bzw. Sprachpaaren.

Eine relativ detaillierte Beschreibung von U bersetzungsproblemen, mit Vorschlagen zu


deren Behandlung in Metal, ist von Thurmair vero entlicht worden ([Thurmair 1990]).
Eine ahnliche Vorgehensweise liegt einer Problemsammlung zugrunde, die Luckhardt aus
der Sicht des Saarbrucker Susy-Systems vero entlicht hat ([Luckhardt 1987]).
Dorr hat versucht, eine Klassi kation von kontrastiven Problemen in ihrem System
Unitran zu benutzen (vgl. [Dorr 1990], [Dorr 1991], [Dorr 1993b]). Insbesondere ist Dorrs
Klassi kation so ausgelegt, da sie relativ viele Typen von Phanomenen und insgesamt
relativ breite Fragmente abdecken soll; dies ist bei den oben genannten Klassi zierungsversuchen nicht uberall der Fall. Dorrs Beispiele stammen aus der U bersetzung zwsichen
Englisch und Spanisch.
Auf der Grundlage der Diskussionen in [Dorr 1990] und [Dorr 1991] wurde in [Kameyama/Ochitani/Peters 1991] gezeigt, da neben den von Dorr beschriebenen \Divergenzen"
(vgl. unten) auch sog. \Mismatches" eine Rolle spielen; die von Dorr diskutierten Unterschiede zwischen Quell- und Zielsprache konnen in der Regel mit lexikalischen oder grammatischen Mitteln innerhalb eines Satzes ausgeglichen werden (Beispiele werden unten
in Abschnitt 6.1.3.1 diskutiert). Die von [Kameyama/Ochitani/Peters 1991] diskutierten
Falle beruhen darauf, da eine der beiden Sprachen Unterscheidungen macht, die in der
anderen nicht nachvollzogen werden konnen, und da diese Unterschiede nicht innerhalb
eines Satzes mit lexikalischen oder grammatischen Mitteln ausgeglichen werden konnen.
Solche Falle nennen [Kameyama/Ochitani/Peters 1991] \Translation Mismatches". Die
Beispiele, die von den Autoren gegeben werden, zeigen, da die Klassi zierung einzelner
Beispiele in Divergences vs. Mismatches nicht immer vollig eindeutig erfolgen kann (vgl.
Beispiele unten).

6.1.2.2 Merkmale und Grenzen von kontrastiven Klassi kationen


Die oben erwahnten Ansatze zur Klassi kation kontrastiver Phanomene haben eine Reihe
von Gemeinsamkeiten, die nachfolgend kurz beschrieben werden. Sie konnen danach gruppiert werden, ob sie Teilfragmente beschreiben oder allgemeinere Gultigkeit haben sollen
(partielle vs. generelle Klassi kation), ob sie (implizit oder explizit) systemabhangig oder
von einer bestimmten Reprasentation abhangig sind, oder ob sie den Versuch unternehmen, von den Spezi ka eines gegebenen Systems soweit als moglich zu abstrahieren.

Partielle vs. generelle Klassi kationsansatze Die Arbeiten von Bemova und Luckhardt sind partiell, insofern sie entweder auf einem Corpus aufsetzen (im Falle von Luckhardt) oder nur ein relativ kleines Fragment betre en. [Bemova et al. 1988] beschreiben
lediglich Nominalphrasen und Verbalphrasen, die in ihrem tschechisch-russischen System
behandelt werden konnen. In ahnlicher Weise beschreiben [Sadler/Thompson 1991] nur
Falle von Head Switching, als Antwort auf die Diskussion dieser Phanomenklasse bei
[Kaplan et al. 1989]. Die Inputpapiere zu der Eurotra-Problemsammlung von Lindop/Tsujii sind ebenfalls partielle Klassi kationen, in diesem Fall ausgerichtet auf die
Eurotra-Fragmente. Hingegen ist bei Barnett et al. und bei Dorr bewut der Versuch
unternommen worden, generellere (naturlich nicht erschopfende) Klassi zierungen einzufuhren. Dasselbe gilt fur [Vandooren 1993] und [Heid 1993].
Systembezogenheit der Klassi kationsansatze In gewisser Weise sind samtliche
Klassi zierungen von U bersetzungsproblemen von den in einem System verwendeten Re-

prasentationen, oder aber von Reprasentationen abhangig, die in dem jeweils zugrunde
gelegten Beschreibungsmodell verwendet werden. Je nachdem, wie weitgehend abstrahiert
wird, und danach, wie die Interaktion zwischen den einzelnen linguistischen Beschreibungsebenen modelliert ist, ergeben sich mehr oder weniger Probleme bei der U bersetzung.
Allerdings wird nicht in allen Arbeiten fur Klassi zierung von kontrastiven Problemen
deutlich gemacht, da diese Abhangigkeit zwangslau g besteht, oder die (z.T. eher idiosynkratischen) Eigenschaften eines bestimmten Reprasentationssystems werden unkommentiert als Gegebenheit angesehen; hier werden Probleme der Systemarchitektur oder
der einsprachigen Beschreibung in einem bestimmten System auf die Typologie der U bersetzungsprobleme projiziert, wodurch die vorgeschlagene Typologie sehr systemabhangig
wird, ohne diesen Sachverhalt \zuzugeben".
In [Thurmair 1990] wird unmittelbar klar gemacht, da seine Klassi zierung sich an
den Operationen uber Baumstrukturen orientiert, die in der bei der Publikation des Artikels verwendeten Version von Metal eingesetzt werden. Zu diesen Operationen gehoren
das Einfugen oder Loschen von Baumen und das Versetzen von Teilstrukturen von einer
Stelle des Baums an eine andere Stelle. Thurmair nimmt bewut diese Operationen als
Grundlage fur seine Klassi zierung von U bersetzungsproblemen und gibt jeweils Beispiele;
insofern ist Thurmairs Beschreibung fur die Arbeit innerhalb von Metal sehr nutzlich;
die Generalisierbarkeit seiner Ergebnisse und seiner Schlufolgerungen ist allerdings begrenzt, weil die Wahl von Baumstrukturen als Reprasentation einige Schwierigkeiten mit
sich bringt, die in dieser Form in anderen, z.B. uni kations-basierten Systemen nicht auftreten; ein Teil der von Thurmair beschriebenen Probleme wird z.B. von einem auf LFG
oder HPSG beruhenden U bersetzungssystem trivialerweise bahandelt, ohne da zusatzliche Beschreibungsmittel notig waren.
Anders als bei Thurmair ist in Eurotra keine oder keine explizite Diskussion der
Systemabhangigkeit erfolgt. Die von [Lindop/Tsujii 1991] angegebenen Probleme sind jedoch zum Teil ebenfalls in anderen Systemen losbar, ohne da irgendwelche zusatzlichen
Beschreibungsmittel notwendig waren. In constraint-basierten Systemen konnen beispielsweise Unterschiede in der syntaktischen Funktion (z.B. DE der Chef beantwortet den Brief
vs. FR le patron repond a la lettre) trivialer Weise mit den Mitteln der Grammatik und
des Lexikons abgehandelt werden6 . Dasselbe gilt fur die thematischen Divergenzen (vgl.
unten; Eurotra-Beispiel: EN John likes Mary vs. FR Mary pla^t a John).

6 Andere Problemtypen (z.B. die Behandlung re exiver Verben dort, wo sie durch nichtre exive Verben
ubersetzt werden) sind spezi sch auf die in Eurotra verwendeten Reprasentationen zuruckzufuhren.

6.1.3 Neuere Ansatze zur Klassi kation von U bersetzungsproblemen:


Divergenzen vs. Mismatches

Die Klassi kation, die in Abschnitt 6.2, unten, vorgestellt wird, stutzt sich auf die Arbeiten
von Dorr, von Kameyama et al. und von Barnett et al. zuruck. In diesen Arbeiten wird eine
etwas generellere Klassi kation auf phanomenologischer Grundlage versucht, mit dem Ziel
eine von den Gegebenheiten eines bestimmten maschinellen U bersetzungssystems relativ
unabhangige Basis fur kontrastive Klassi zierungen zu scha en.
Im folgenden werden zunachst die von Dorr etablierten Typen von Divergenzen diskutiert. Darauf aufbauend wird der Unterschied zwischen Mismatches und Divergences
angesprochen, der von Kameyama und Barnett eingefuhrt wurde. Schlielich werden die
genannten Arbeiten aus der maschinellen U bersetzung mit Vorschlagen aus dem Worterbuchprojekt Multilex verglichen. Die genannten Arbeiten stellen damit den Ausgangspunkt fur die Problemklassi kation dar, die im Abschnitt 6.2 eingefuhrt und diskutiert
wird.

6.1.3.1 Dorrs Divergenztypen

In verschiedenen Arbeiten7 hat Bonnie Dorr eine Klassi kation von U bersetzungsproblemen entwickelt, nach und nach verfeinert und als Grundlage ihres experimentellen
MU -Systems Unitran benutzt.
Man kann die in Tabelle 6.1 zusammengestellten sechs Klassen, die so aus [Dorr 1993b]
ubernommen sind, auf vier hauptsachliche Typen von Unterschieden zwischen Quellund Zielsprache reduzieren. Diese vier Typen sind unten mit einigen Beispielen von uns
aufgelistet8:
 \Categorial Divergence":
{ EN: be hungry
FR: avoir faim
{ EN: to schedule sth.
FR: etablir l'horaire de qc.
 \Con ational Divergence", \Lexical Divergence":
{ EN: to sta (a school, an oce, )
FR: pourvoir (une ecole ) en personnel
{ EN: to mispronounce sth.
FR: prononcer qc. de travers
{ EN: to publicize sth.
FR: rendre qc. public
 \Thematic Divergences":
{ EN: I miss my dictionary.
FR: Mon dictionnaire me manque.
:::

:::

7 Vgl. [Dorr 1990], [Dorr 1993a] und [Dorr 1993b].


8 In der rechten Spalte der Tabelle 6.1 sind kurze Kommentare angefugt, die unten wieder aufgenommen
werden.

\Divergence Type" Beispiele


Categorial
EN: I am hungry
m

Demotional

DE: Ich habe Hunger


\I have hunger"
EN: I like eating

Promotional

DE: ich esse gern


\I eat likingly"
EN: John usually goes home

Con ational

ES: Juan suele ir a casa


\John tends to go (to) home"
EN: I stabbed John

Lexical
Thematic

Anmerkungen
Kategoriewechsel
beim zu
ubersetzenden
Lexem
Head Switching
Head Switching
(umgekehrte
Sprachrichtung)

Inkorporation von
m
Argumenten vs.
ES: Yo le di pu~naladas a Juan
Realisierung
\I gave knife-wounds to John"
der Argumente
EN: John broke into the room
Zu ubersetzender Ausdruck:
m
\Einwort-Lexem" vs.
S: Juan forzo la entrada al cuarto \Mehrwortlexem"
\John forced entry to the room"
EN: I like Mary
Unterschiede im
m
Abbildungsverhaltnis
ES: Me gusta Maria
zwischen Argumenten
\Mary pleases me
und Komplementen

Tabelle 6.1: Dorrs Divergenztypen

{ FR: qn. deconseille qc. a qn.

EN: sb. advises sb. against sth.

\Demotional/Promotional Divergence" (Head Switching):

{ EN: He still plays piano.

FR: Il continue a jouer du piano.

Die vier (statt sechs) Klassen konnen wie folgt de niert werden:
 bersetzung eines Lexems einer Kate Die kategoriale Divergenz ist bei Dorr als die U
gorie durch ein Lexem einer anderen Kategorie de niert. Ein hau ges Beispiel hierfur
ist die U bersetzung von Verben durch Funktionsverbgefuge (ein Verb der Quellsprache wird in diesem Fall durch ein (pradikatives) Nomen der Zielsprache ubersetzt).
Auch in Dorrs Beispiel (EN be hungry vs. FR avoir faim) wird ein Adjektiv durch
ein Funktionsverbgefuge (FR avoir faim) ubersetzt.


Die von Dorr so genannte \con ational divergence" entsteht in der Regel durch Unterschiede in der Verfugbarkeit spezi scher im Gegensatz zu allgemeineren lexikalischen Einheiten. Die \con ation" ndet in der Sprache statt, die ein spezi scheres

Lexem hat: Dort wird mit einem einzelnen Lexem diejenige Information eingefuhrt,
welche in der anderen Sprache durch ein Komplement oder einen Adjunkt eines
allgemeineren Lexems ausgedruckt wird. Zu den \con ational divergences" rechnen
wir auch Falle der U bersetzung kausativer Verben durch Konstruktionen, bei denen
das kausative Element eigens als Verb realisiert wird und ein zweites, nicht kausatives Verb, beispielsweise als In nitivkomplement subkategorisiert ist (vgl. EN run
a program vs. FR faire tourner un programme 9). Der Divergenztyp, den Dorr als
\lexical divergence" au uhrt, kann als eine Variante der Klasse der \con ational
divergences" beschrieben werden.
 \Thematische Divergenzen" gehen auf Unterschiede zwischen den Sprachen hinsichtlich der Abbildung von Argumenten eines Verb-Pradikats auf die subkategorisierten
Komplemente des Verbs zuruck. Diese Falle betre en die Zusammenhange zwischen
Argumentstruktur und syntaktischer Beschreibung.
 Die beiden Klassen der \demotional" und \promotional divergence" konnen zusammengefat werden, da sie, nur unterschieden nach der Sprachrichtung, denselben
Typ von Phanomen beschreiben. Die meisten Beispiele fur diese Problemklasse sind
Phanomene des \Head Switching". Head Switching-Falle entstehen dadurch, da
sich Sprachen hinsichtlich der Realisierung von semantischen Operatoren unterscheiden. In einer Sprache wird ein Operator als Satzadverb realisiert, in einer anderen
u.U. als Pradikat auf der obersten Ebene des Satzes. Verbale Pradikate sind sowohl semantische als auch syntaktische Kopfe (z.B. im Sinne von HPSG), wahrend
Adverbien zwar semantisch als Kopfe interpretiert werden, jedoch syntaktisch als
Modi katoren beschrieben werden. Bei der U bersetzung ergibt sich demnach das
Problem, da syntaktische und semantische Kopfe in der einen Sprache \parallel"
in der anderen \orthogonal" verteilt sind.
In einer fruheren Arbeit hatte Dorr neben den oben in der Tabelle angegebenen Divergenztypen noch eine weitere Klasse vorgeschlagen: \syntaktische Divergenzen". Bei diesen
handelt es sich um Falle, in denen unterschiedliche grammatische Funktionen oder unterschiedliche Komplementrealisierungen bei quell- und zielsprachlichen Verben auftreten.
Dieser Fall stellt eine sehr groe Gruppe von U bersetzungsproblemen dar, und nicht alle
sind mit trivialen Mitteln zu behandeln. Insbesondere ergeben sich Probleme dort, wo
satzformige Erganzungen der Quellsprache nicht satzformig in der Zielsprache wiedergegeben werden konnen, oder wo In nitive durch nite satzformige Erganzungen ubersetzt
werden mussen. Detaillierte Beispiele hierfur werden unten in Abschnitt 6.3.1.2 gegeben.
Dorr's Beispiele sind allerdings weitgehend trivial (direktes Objekt wird durch Prapositionalobjekt ubersetzt usw.)10 .

6.1.3.2 Die Unterscheidung zwischen Mismatches und Divergences

Die Problemklassen von Dorr beschreiben ein relativ breites Teilfragment des U bersetzungslexikons, lassen jedoch wichtige (und in der kontrastiven Linguistik seit langer Zeit
9 Das Beispiel wurde von [Thurmair 1990] adaptiert.
10 Dorr hat diese Falle vermutlich deswegen in spateren Versionen ihrer Arbeiten nicht mehr aufgefuhrt,
weil sie keine lexikalisch-semantischen U bersetzungsprobleme darstellen, sondern rein syntaktisch
bedingte.

diskutierte) Bereiche unberucksichtigt: alle diejenigen Phanomene, die auf Unterschiede


der Sprachen hinsichtlich der vorhandenen bzw. anwendbaren Beschreibungsdimensionen
zuruckgehen. Die eine Sprache macht sehr feine Unterschiede, die andere gar keine, weil
die entsprechende Unterscheidungs-Dimension gar nicht relevant ist (vgl. das Schema in
Abbildung 6.1). Die Vielzahl von Ausdrucken der Eskimos fur unterschiedliche Arten von
Schnee und Eis, oder die Tatsache, da das Oberengadinische drei verschiedene Ausdrucke
fur Kuhglocken (je nach Groe und Tonhohe) hat, wurden vielfach als Beipiele fur diesen
Typ von Problemen genannt.
QS ...
ZS ...

Abbildung 6.1: Unterschiedliche Aufteilung einer Domane in Quell- und Zielsprache


Das Neue an dem von [Kameyama/Ochitani/Peters 1991] benutzten Begri \translation mismatch" ist, da er nicht auf den Bereich der Beschreibung von denotationellen
Aspekten der lexikalischen Semantik beschrankt bleibt. Er wird generalisiert uber die
\Grammatik" der beteiligten Sprachen:
\We want to call special attention to a less widely recognized problem, that
of translation mismatches (Auszeichnung der Autoren). They are found when
the grammar of one language does not make a distinction required by the
grammar of the other language." (p. 194)
In [Kameyama/Ochitani/Peters 1991] wird das Problem der De nitheits- und Numerusangaben bei der Englisch $ Japanischen U bersetzung diskutiert. Englisch strukturiert
die Domane der \zahlbaren" Nomina nach den Dimensionen \de nit/inde nit" und \singular/plural" (also vier Untertypen moglicher Nominalphrasen, Kreuzklassi kation). Im
Japanischen dagegen ist keines der beiden Klassi kationskriterien obligatorisch; bei der
U bersetzung aus dem Japanischen ins Englische konnen also Nominalphrasen auftreten,
bei denen die fur das Englische wichtige Information fehlt11.
Kameyama et al. haben das Interesse der MU -Forschung auf Mismatches gelenkt und
damit auf die Unterscheidung zwischen Mismatches und Divergences, die allerdings nicht
ganz problemlos ist.

Abgrenzungsprobleme In beiden Fallen geht es darum, da Unterscheidungen, die

in der Quellsprache gemacht werden, in der Zielsprache nicht vorhanden sind oder umgekehrt. Diese Unterscheidungen konnen verschiedene linguistische Beschreibungsebenen
und Beschreibungsdimensionen betre en.
Der Unterschied, den Kameyama et al. zwischen Mismatches und Divergences sehen, betri t die Moglichkeiten in der Zielsprache, die fehlenden Unterscheidungen, die
die Quellsprache einfuhrt, zu egalisieren. Wenn es moglich ist, innerhalb eines Satzes,
11 Ein weiteres Beispiel fur grammatisch bedingte Mismatches ist das Vorhandensein eines Duals (neben
Singular und Plural) in manchen slawischen Sprachen, wie z.B. Slowenisch; slowenische Personalpronomina haben Formen fur \wir zwei", \ihr zwei", \(diese) zwei", die im Deutschen keine direkte
Entsprechung haben.

beispielsweise durch syntaktische A nderungen oder durch Paraphrasen, die Unterschiede


zwischen Quell- und Zielsprache zu egalisieren und somit ohne erzwungenen Informationszuwachs oder Informationsverlust zu ubersetzen, so sprechen Kameyama et al. von
\translation divergence". Wenn dies nicht moglich ist, so sprechen sie von \translation
mismatch".
Die Unterscheidung ist stark von der Granularitat der Beschreibung und von den benutzten Reprasentationen abhangig. Hinzu kommt, da man daruber streiten kann, welche
grammatischen und lexikalischen Mittel noch als brauchbare Paraphrasen gelten konnen.
Dementsprechend fordern [Barnett et al. 1994], da eine \most natural translation" angestrebt wird, die den Kriterien der \semantic closeness" und der \naturalness" genugen
sollen. Das Kriterium der \naturalness" wird von den Autoren wie folgt de niert:
 Quell- und zielsprachlicher Text m
ussen sich hinsichtlich des Sprachniveaus entsprechen;
 syntaktische Strukturen und Ausdr
ucke von Quell- und Zielsprache mussen von
ungefahr proportionaler Lange sein12 ;
 bersetzung quellsprachlicher Ausdrucke in zielsprachliche Ausdrucke mu
 bei der U
die Ebene der Spezi zitat der Quell-Ausdrucke beibehalten werden, wo dies moglich
ist; wenn die Quell- und Zielsprache sowohl allgemeinere als auch spezi schere Ausdrucke zur Verfugung haben, so sollen allgemeinere Ausdrucke durch allgemeinere,
spezi schere Ausdrucke durch spezi schere ubersetzt werden. Bei Divergences ist
dies in der Regel moglich, bei Mismatches meistens nicht. Bei Mismatches mu
dann aber der \Abstand" hinsichtlich der Spezi zitat so klein als moglich gehalten
werden.
Eine eindeutige Unterscheidung zwischen Divergenzen und Mismatches ist also nicht ohne
weiteres moglich: die Grenzen sind etwas ieend.
\When we analyse what we called translation divergences above more closely,
it becomes clear that divergences are instances of lexical mismatches. [...] divergences are the lexical mismatches resolved within a sentence by cooccurring
lexemes." [Kameyama/Ochitani/Peters 1991]
Es ist sinnvoll, die Zusammenhange zwischen den beiden Typen von U bersetzungsproblemen als ein Kontinuum mit unscharfen U bergangen zu begreifen, nicht als eine Klassi zierung mit ganz eindeutigen Kriterien.

Weitere Beispiele fur Mismatches Viele Mismatches ergeben sich durch kulturspezi-

sche Unterschiede. [Barnett et al. 1994] geben als Beispiel die U bersetzung von japanisch
yasai an: yasai entspricht ungefahr DE Gemuse. Aber yasai denotiert nur Dinge, deren
Farbe in der Natur grun ist; Minze ist beispielsweise in yasai eingeschlossen, Tomaten
dagegen nicht. Zu unserer Vorstellung von Gemuse gehoren Tomaten, Karotten, Sellerie
usw., die nicht grun sind. Umgekehrt gehort Minze nicht unbedingt dazu13 .
12 Hiermit werden umstandliche Paraphrasen oder \epische Erlauterungen" ausgeschlossen, wie sie im
Falle von kulturspezi schen Mismatches sehr oft in Worterbuchern gegeben werden.
13 Kulturspezi sche U bersetzungsprobleme sind wiederum in der U bersetzungstheorie, in der Lexikographie und in der lexikalischen Semantik (z.B. [Lyons 1980]: 426, nach [Durrell 1988]:230) vielfach

In der Lexikographie hat z.B. Kromann die durch Kulturspezi ka bedingten U bersetzungsprobleme als besonders drastischen Beispielfall fur die Aufgabe des zweisprachigen
Worterbuchs herangezogen, A quivalentbeschreibungen dort besonders explizit zu gestalten, wo die Zielsprache Unterscheidungen macht, die in der Quellsprache unbekannt sind
(vgl. die Diskussion uber DK Lektor vs. DE Lektor in [Kromann 1989]).
A hnliche Belege, die nicht notwendig auf Kulturspezi ka beruhen, sind in der strukturellen Semantik verschiedendlich gegeben worden. Ein Beispiel ist DE Wald/Holz vs.
FR bois/for^et. [Durrell 1988]: 234 f. beschreibt die Zusammenhange von EN earth, soil,
oor, ground vs. DE Erde, Boden, Grund:
\As a typical instance of such a messy set we may conside the lexemes earth,
soil, oor and ground in English and their usual equivalents in German, i.e.
Erde, Boden und Grund. The complex nature of the interlingual incongruence
between these may be seen initially by looking at common translation equival(6) Erde = 1) soil
er ruht in fremder Erde, trockene Erde
2) earth die Erde wird im Fruhjahr warm
3) ground die Saat in die Erde bringen
Boden = 1) soil
fruchtbarer Boden, den Boden bearbeiten
ents:
2) ground er liegt auf dem Boden
3) oor
der Boden des Zimmers
(also = loft, bottom, etc.)
Grund = 1) ground bis auf den Grund zerstort
(also = bottom, foundation, etc.)
Schematically, we thus may observe the following relationships of equivalence:
(7)

earth

Erde

soil

floor

Boden

ground

Grund

This is a particularly troublesome set, as in no case in either language do we


seem to be dealing clearly with any relationships of a more abstract kind."

Einteilung von Mismatches Man kann eine erste, sehr grobe Einteilung von Mismat-

ches danach unternehmen, welche Art von Unterschied in der Informationsmenge zwischen Quell- und Zielsprache vorliegt. Wird durch die U bersetzung erzwungen, da der
zielsprachliche Satz mehr Information enthalt als der quellsprachliche Satz, d.h. mu an einer Stelle ein spezi scheres Lexem der Zielsprache gewahlt werden, als in der Quellsprache
vorliegt, so kann man von \hyponymischer" U bersetzung oder \interlingualen Hyponymen" sprechen. Diese Sprechweise beruht auf der Idee einer fur beide Sprachen gultigen
diskutiert und anhand von einzelnen Beispielen diskutiert worden. Vgl. auch Diskussionen uber die
\Unubersetzbarkeit" der Sprachen. Ein neues Beispiel fur diese Art Diskussion ist Radtkes Erklarung
fur die Probleme bei der U bersetzung von DE Buttermilch ins Italienische (die Substanz ist im deutschen Sprachraum als Getrank fur Ernahrungsbewute anzutre en, wahrend sie in Italien als Abfallprodukt gilt und allenfalls als zur Schweineaufzucht tauglich angesehen wird). In italienischen
Dialekten gibt es Ausdrucke fur die Sache; die in den deutsch-italienischen Worterbuchern vorgeschlagenen U bersetzungen sind aber den italienischen Muttersprachlern weithin unbekannt. [Radtke
1994]: 92: \Die Tucke der U bersetzung liegt also nicht in der Bezeichnungsubereinstimmung, sondern
vielmehr in der unterschiedlichen Wertehierarchie innerhalb der Sachkultur".

Konzepthierarchie, die als Spezialisierungshierarchie organisiert ist, und deren Knoten


Konzepte darstellen, die auf einzelsprachliche Lexeme verweisen. Insofern der obere Teil
einer solchen Hierarchie genereller, der untere Teil spezi scher ist, stellt die U bersetzung
durch einen spezi scheren Ausdruck einen \downward move" (Barnett et al.) in einer
solchen Hierarchie dar.
Den umgekehrten Fall, d.h. den Informationsverlust bei der U bersetzung, nennen Barnett et al. \upward move", die U bersetzungstheorie \hyperonymische" U bersetzung. Schematisch ist diese Situation in der Abbildung 6.2 dargestellt.

...

...

Genus proximum
Differentia
specifica

...

...

Abbildung 6.2: \Con ational/lexical divergence" und \Upward Mismatch" in einer \interlingualen" Konzepthierarchie (gestrichelte Pfeile: Abbildungen von \Konzepten" auf
Lexeme)
Die beiden obigen Falle sind noch relativ klar identi zierbar. In anderen Fallen, wie etwa
bei den von Durrell zitierten englisch/deutschen U bersetzungsaquivalenten erfolgt sowohl
in Teilen ein ungewollter Informationszuwachs als auch in Teilen ein Informationsverlust.
Die Denotatbereiche von quell- und zielsprachlichen Lexemen uberlappen. Solche Falle
nennen Barnett et al. \sideward-move" (Beispiel yasai).

6.1.3.3 Zusammenfassung

Die verschiedenen Versuche zur Klassi kation von U bersetzungsproblemen, die in der Lexikographie, der lexikalischen Semantik, der U bersetzungstheorie und der Forschung zur
maschinellen U bersetzung unternommen worden sind, benutzen weitgehend unterschiedliche Terminologie und scheinen nicht in allen Fallen uber die Arbeiten in den jeweils
anderen Bereichen informiert zu sein. Dennoch lat sich aus den verschiedenen Ansatzen
eine gemeinsame Grobklassi kation herausarbeiten, die trotz unterschiedlicher Zielsetzungen und unterschiedlicher Forschungszusammenhange als Grundlage fur eine detailliertere
Klassi kation von U bersetzungsproblemen genommen werden kann.
In Tabelle 6.2 sind die Ansatze von Dorr und Barnett einander gegenubergestellt und

mit Vorschlagen aus dem Lexikonprojekt Multilex (vgl. [Modiano 1994]) verglichen
worden. Die Klassi kation von Multilex umfat den breitesten Bereich14 .
Multilex

vollstandige A quivalenz
A quivalenz mit
Transformationen
\variant translation"
Partielle A quivalenz
{ hyperonymische U bersetzung
{ hyponymische U bersetzung
{ \related translation"

[Barnett et al.]

[Dorr]

Divergenz

Divergenz
(verschiedene Subtypen)

Mismatch
{ upward move
{ downward move
{ sideward move
(overlap)

Tabelle 6.2: A quivalenztypen bei Multilex, Barnett und Dorr

14 Was bei Multilex \variant translation" heit, entsteht dadurch, da Quell- und Zielsprache zwar
denotationelle A quivalente aufweisen, jedoch diese A quivalente auf der Ebene der Konnotation, bzw.
der Stil-Merkmale Unterschiede aufweisen.

SEM

SYN

CAT

mit erzwungenem
Informationszuwachs
"downward"

betrifft
syntagmatische
Umgebung
betrifft Lexem und
syntagmatische

Umgebung

betrifft Lexem

Bei Divergences, eine Unterscheidung nach dem linguistischen Objekt, welches sich
in Quell- und Zielsprache unterscheidet:
(1) das zu ubersetzende Lexem alleine, (2) das Lexem und { falls es ein Pradikat
ist { die davon subkategorisierten Erganzungen und ggf. Adjunkte, oder (3) nur die
syntagmatische Umgebung des zu ubersetzenden Lexems.
Im einzelnen werden die folgenden Subtypen unterschieden:

Eine Unterscheidung zwischen Mismatches und Divergences, nach den bei Barnett
et al., Kameyama et al. und Dorr dargestellten Kriterien.

Die hier verwendete Klassi kation beruht auf folgenden Kriterien:

"upward"

Mismatches

..
mit "Uberlappung"
"sideward"

Abbildung 6.3: Schema einer Klassi kation von U bersetzungsproblemen

Beschreibungsebenen ...

Subklassifizierung
nach linguistischen

Divergences

..
Ubersetzungsprobleme

Nach der Analyse der kontrastiven Klassi kationen aus der Literatur zur maschinellen
U bersetzung wird im Folgenden eine eigene Klassi kation vorgeschlagen, auf der die kontrastiven Klassen beruhen, die in den Abschnitten 6.3 und 6.4 beschrieben werden.
Die Kriterien dieser Klassi kation sind zum Teil den in Abschnitt 6.1.3 beschriebenen Kriterienkatalogen entnommen oder an sie angelehnt. Dies gilt fur die Einteilung in
Mismatches und Divergences, sowie dafur, da auch hier die Tatsache akzeptiert werden
mu, da zwischen Mismatches und Divergences nicht immer ganz strikt unterschieden
werden kann, sondern sich ieende U bergange ergeben.
Ansonsten wird eine Vereinfachung des Kriterienkatalogs angestrebt; die hier benutzte
Klassi kation deckt ohne Einfuhrung von neuen Parametern gegenuber der Beschreibung
in Kapitel 4 dieselben Phanomene ab, wie die publizierten Klassi kationen. Abbildung
6.3 stellt diese kontrastive Phanomenklassi kation schematisch dar.

6.2 Kriterien fur eine Klassi kation von U bersetzungsproblemen als


Grundlage fur kontrastive Klassen

mit Informationsverlust

{ Das Satzpradikat (z.B. das Verb) selbst weist in Quell- und Zielsprache nicht-

triviale Unterschiede auf. Betre en diese Unterschiede die Kategorieebene, dann


liegt das U bersetzungsproblem vor, welches Dorr als \categorial divergence"
bezeichnet (EN: I am hungry $ DE: ich habe Hunger)15.
{ Die Unterschiede zwischen Quell- und Zielsprache betre en das vom Eintragswort subkategorisierte Material (Unterschiede zwischen Quell- und Zielsprache
im Subkategorisierungsverhalten). Hier konnen weitere Unterscheidungen eingefuhrt werden, je nach Typ und Eigenschaften des von den Unterschieden
betro enen subkategorisierten Materials.
Ein Spezialfall dieser Problemklasse sind \thematische Divergenzen" (EN: I like
Mary $ SP: Me gusta Maria). Hier ist die Argument-Komplement-Abbildung
(\Linking", \Lexical Mapping") betro en: Quell- und Zielsprache verwenden
unterschiedliche Abbildungen.
{ Unterschiede zwischen Quell- und Zielsprache hinsichtlich des Auftretens, bzw.
der Moglichkeit des Auftretens von Adjunkten. Bestimmte Verben der Quellsprache konnen mit bestimmten Adjunkten kombiniert werden, ihre A quivalente in
der Zielsprache konnen jedoch nicht mit Adjunkten gleicher Funktion kombiniert werden16 .
Die oben genannten drei Typen von Phanomenen (Unterschiede im \Keyword",
Unterschiede in der Subkategorisierung, Unterschiede im Adjunktpotential) konnen
naturlich auch kombiniert auftreten.
Im Falle von Mismatches werden dieselben drei Typen unterschieden, wie sie z.B.
bei Barnett et al. diskutiert werden:
{ \Upward move": Informationsverlust durch U bersetzung mit Hilfe eines allgemeineren Lexems;
{ \Downward move": Notwendigkeit der U berspezi zierung in der Zielsprache,
relativ zur Quellsprache;
{ \Sideward move": U berlappungen im Informationsgehalt, d.h. eine Kombination aus Informationsverlust und erzwungenem Informationszuwachs.
Die Divergenztypen werden weiter subklassi ziert nach den bei der U bersetzung
speziell betro enen Beschreibungsebenen. Die Klassi zierung beruht auf den linguistischen Beschreibungsebenen, zu denen ublicherweise im Lexikon Informationen angegeben werden. Unabhangig davon, wie diese Informationen im Lexikon

15 Oft hat ein Kategoriewechsel beim Eintragswort weitreichende Folgen fur die syntaktische Umgebung
des Eintragsworts im Satz. Dies gilt etwa bei U bersetzungen von Verben durch Adjektive oder durch
Substantive. Wird ein Verb durch ein Adjektiv ubersetzt, so mu ein geeignetes Kopulaverb eingesetzt
werden. Wird ein Verb durch ein Funktionsverbgefuge (Nomen-Verb-Kollokation) ubersetzt, so genugt
es nicht, nur fur das Verb die korrekte Nominalisierung auszuwahlen, sondern das Hauptproblem bei
der Auswahl des U bersetzungsaquivalents liegt in der Auswahl des richtigen Funktionsverbs. Ebenso
kommt es vor, da die Quellsprache ein Verb im Aktiv hat, die Zielsprache aber ein Verb im Passiv
verlangt. Mit diesem Wechsel geht auch ein Wechsel der Subkategorisierungseigenschaften der Verben
einher (\thematische Divergenz"). Details und weitere Beispiele hierzu werden unten diskutiert.
16 Ein typisches Beispiel hierfur sind Verben der A nderung von Mengen; mit FR augmenter, monter, etc. konnen keine strukturisomorphen Konstruktionen zur DE der Umsatz ist um 10%
auf 125 Millionen Mark gestiegen konstruiert werden.

reprasentiert sind, lat sich fur einzelne Subklassen zeigen, welche Art von Information vorhanden sein mu, damit die jeweiligen Probleme behandelt werden konnen,
sowie welche Teilbeschreibungen uberhaupt betro en sind17 .
Die hier angegebenen Kriterien konnen hierarchisch angeordnet werden: Zunachst wird
der Problembereich in Mismatches vs. Divergences eingeteilt, dann werden Mismatches,
soweit dies moglich ist, in Falle mit Informationsverlust, unerwunschtem Informationszuwachs oder U berlappung eingeteilt. Sinngema werden Divergenzen danach eingeteilt,
ob sie das Lexem selbst, oder von ihm subkategorisiertes oder nicht subkategorisiertes
Material (Adjunkte) betre en, oder das Lexem und seine syntagmatische Umgebung. Divergenzen werden weiterhin nach den betro enen Beschreibungsebenen subklassi ziert.
Die beiden Kriterien zur Subklassi zierung von Divergenzen sind orthogonal und werden
kreuzklassi ziert. Dies wird in Abbildung 6.3 verdeutlicht18 .

17 Einige Subtypen der oben eingefuhrten Divergenztypen lassen sich auf der syntaktischen Ebene beschreiben (z.B. Unterschiede im Subkategorisierungsverhalten), andere betre en die Zusammenhange
zwischen den Argumenten eines verbalen Pradikats und der Realisierung dieser Argumente durch vom
Verb subkategorisierte grammatische Funktionen (\Linking", wie im Falle der thematic divergence),
wieder andere Subtypen betre en morphosyntaktische, pragmatische oder durch diasystematische
Markierung beschreibbare Eigenschaften.
18 Man kann prinzipiell auch fur Mismatches eine Subklassi kation nach Beschreibungsebenen annehmen. Allerdings fallt es sehr schwer, fur samtliche aus der Kombination hervorgehenden Klassen Belege
zu nden.

6.3 Zur Subklassi zierung von Divergenzen { Beispieldiskussion


Oben in Abschnitt 6.2 wurden die Kriterien angegeben, auf denen die hier benutzte kontrastive Klassi kation beruht. Die kontrastiven Klassen sind schematisch in Abbildung
6.3 dargestellt. Hier werden die Subklassen aus dem Bereich der Divergenzen detailliert
anhand von Beispielmaterial diskutiert. Dabei wird auf Generalisierungen hingewiesen,
wo dies relevant ist.
Zunachst (Abschnitte 6.3.1 bis 6.3.3) werden Falle behandelt, bei denen sich Quell- und
Zielsprache hinsichtlich der syntagmatischen Umgebung des zu ubersetzenden Pradikats
(in der Regel eines Verbs) unterscheiden. In den Abschnitten 6.3.4 und 6.3.5 angegebene
Probleme betre en primar die Realisierung des Eintragsworts selbst. Die in 6.3.6 beschriebenen Falle betre en sowohl das zu ubersetzende Lexem als auch dessen syntagmatische
Umgebung.
Abschnitt 6.3.1 und 6.3.1.2 beschreiben Falle, wo Quell- und Zielsprache Unterschiede im Subkategorisierungsverhalten aufweisen (\syntaktische Divergenzen"). Abschnitt
6.3.2 behandelt \thematische Divergenzen" und Abschnitt 6.3.3 Falle von \con ational
divergence" bzw. \lexical divergence".
Bei den in Abschnitt 6.3.4 diskutierten \kategorialen Divergenzen" unterscheiden sich
Quell- und Zielsprache in Eigenschaften des zu ubersetzenden Pradikats selbst. Man kann
auch die \demotional/promotional divergence" zu diesem Subtyp rechnen, insofern diese Falle (Head Switching) eben durch einen Kategoriewechsel bei der Realisierung des
semantischen Kopfs (Adverb vs. Verb) charakterisiert sind (vgl. Abschnitt 6.3.5).

6.3.1 Subkategorisierungsunterschiede: \syntaktische Divergenz"


6.3.1.1 Einfache Falle

Die hau gste Klasse von Divergenzen, wahrscheinlich uberhaupt der hau gste Fall von
A quivalenzbeziehung, liegt dort vor, wo Quell- und Zielsprache sich hinsichtlich der Subkategorisierungseigenschaften von Verben unterscheiden19 .
Typische Beispiele fur diesen Trivialfall der syntaktischen Divergenz sind in Tabelle
6.3 zusammengestellt; die Beispielsammlung ist in keiner Weise vollstandig, sondern dient
nur zur Illustration: Franzosische transitive Verben mit deutschen A quivalenten, die ein
indirektes bzw. ein Prapositionalobjekt subkategorisieren (Tabelle 6.3); umgekehrt sind
in Tabelle 6.4 Falle zusammengestellt, wo deutsche transitive Verben durch franzosische
Verben mit Prapositionalobjekt ubersetzt werden.
Diese Falle mogen zunachst trivial erscheinen; sie sind jedoch dort problematisch, wo
die Subkategorisierungseigenschaften der Verben der einen Sprache eine Satzkonstruktion erlauben, die in der anderen Sprache nicht beibehalten werden kann. Passivierung
ist ein typischer Beispielfall hierfur. Nimmt man an, da die transitiven Verben jeweils
in der Quellsprache auftreten, und da sie in Passivsatzen erscheinen, so stellt sich das
Problem, da entweder bei der U bersetzung des Passivsatzes ein anderes A quivalent ausgewahlt werden mu, oder da die Konstruktion des zielsprachlichen Satzes gegenuber
der quellsprachlichen Passivkonstruktion modi ziert werden mu20 .
19 Diese Falle werden von formalen Grammatiken problemlos behandelt, solange die Unterschiede sich
auf die Ebene der grammatischen Funktionen beziehen, und keine allzu umfangreichen phrasenstrukturellen Unterschiede auftreten; vgl. aber Abschnitt 6.3.1.2.
20 Dort, wo neben den Vollverben auch Funktionsverbgefuge als A quivalentkandidaten zur Verfugung

Franzosisch
(Subj Obj)
applaudir
approuver
assister
aider
braver, de er
contrecarrer
contredire
(en)croire
presider

Deutsch
(Subj Obj2)
applaudieren
zustimmen
helfen
helfen
trotzen
entgegenarbeiten
widersprechen
glauben
vorsitzen

Franzosisch Deutsch
(Subj Obj) (Subj P-Obj)
cautionner burgen
(Subj fur-Obj)
voter
abstimmen
(Subj uber-Obj)
bouder
schmollen
(Subj mit-Obj)

Tabelle 6.3: Syntaktische Divergenz: transitive Verben (FR) vs. Verben mit P-OBJ (DE)
Deutsch (Subj Obj)
beichten
genieen
wechseln
vorwegnehmen
befehligen
beantworten
erreichen

Franzosisch (Subj P-Obj)


se confesser (Subj de-Obj)
bene cier (Subj de-Obj)
changer (Subj de-Obj)
anticiper (Subj sur-Obj)
commander (Subj Obj2)
repondre (Subj a-Obj)
atteindre (Subj a-Obj)

Tabelle 6.4: Syntaktische Divergenz: transitive Verben (DE) vs. Verben mit P-OBJ (FR)
Ein Beispiel: die U bersetzung eines Satzes wie 4 ins Deutsche ist nicht gleichzeitig strukturisomorph und unter Verwendung passender Kollokationen moglich.
(4) FR un probleme rencontre [ ] a retarde le projet
Der franzosischen Kollokation rencontrer un probleme entsprechen die in 5a und 5b angegebenen deutschen Kollokationen.
(5) a. auf ein Problem tre en,
b. auf ein Problem stoen,
c. *ein Problem (an-)tre en
Es gibt im Deutschen keine Kollokation (vgl. 5c), die mit FR rencontrer un probleme
aquivalent ware und gleichzeitig ein transitives Verb enthalten wurde, d.h. passivierbar
ware. Als U bersetzung von 4 mu zum Beispiel 6 gewahlt werden:
(6) DEein Problem, auf das [man] traf, hat das Projekt verzogert
:::

:::

stehen, kann mitunter der \Strukturumbau" vermieden werden, weil ein zielsprachliches Funktionsverbgefuge verwendet werden kann, welches dieselben Subkategorisierungseigenschaften hat, wie das
quellsprachliche Verb.

Die Grammatik der Zielsprache (in diesem Fall Deutsch) enthalt alternative Regeln fur die
U bersetzung von Partizipien durch Relativsatze. Sie mu ebenfalls Regeln dafur enthalten,
unter welchen Bedingungen und in welcher Form unpersonliche Subjekte (man) eingefugt
werden konnen.
Im Worterbuch mu die syntaktische Information und die Kollokationsinformation
vorhanden sein, die die A quivalentwahl steuert.

6.3.1.2 Spezielle Subkategorisierungsunterschiede: in nite vs. nite


Konstruktionen
Bei der Diskussion von syntaktischen Divergenzen wird selten auf einen Spezialfall eingegangen, der zu relativ umfangreichen A nderungen der Satzstruktur fuhren kann: U bersetzung von in niten Konstruktionen durch nite und umgekehrt.
In sehr vielen Fallen ist es moglich, nite Komplementsatze oder In nitivkomplemente
strukturisomorph wiederzugeben (vgl. 7 unten).
(7) DEIch hore meinen Nachbarn husten.
FR J'entends mon voisin tousser.
DE Ich hore da mein Nachbar hustet.
FR J'entends que mon voisin tousse.
Dies ist beispielsweise nicht moglich bei der franzosisch-deutschen U bersetzung von \a.c.i.
im Relativsatz" und von manchen satzwertigen Prapositionalobjekten.
Mitunter fehlt in der Zielsprache eine in nite Konstruktionsmoglichkeit, und das In nitivkomplement mu durch einen niten Komplementsatz (z.B. da-Satz) ubersetzt
werden21 . Das typische und oft zitierte Englisch-Franzosische Beispiel fur solche Falle
(10) tritt eingeschrankt analog auch bei der U bersetzung vom Franzosischen ins Deutsche
auf (vgl. 11), allerdings mu die In nitivkonstruktion mit dem Verb ^etre gebildet sein22 .
(10) ENYou are suposed to talk at 10:00h
DE Man nimmt an, da Sie um 10:00h sprechen (Sie sollen um 10:00h sprechen)
(11) FR Je suppose la secretaire ^etre absente
DE Ich nehme an, da die Sekretarin abwesend ist
21 Aus der U bersetzung zwischen Franzosisch und Englisch werden in der Literatur zur maschinellen
U bersetzung Konstruktionen wie in 8 und 9 zitiert (vgl. [Caroli 1991]):
(8) EN The boss wants her to come
FR Le patron veut qu'elle vienne
(9) EN He is said to be ill.
FR On dit qu'il est malade.
22 Entsprechend lat sich auch eine Konstruktion mit Partizip je suppose la secretaire absente oder mit
Prapositionalphrase je supposais M. Meyer au Canada belegen.

In [Krenn 1995]:236f. werden Falle von \a.c.i. im Relativsatz" (vgl. 12 und 13) diskutiert,
die durchgangig zu der hier diskutierten Problemklasse gehoren:
(12) FR donner pour vrai ce qu'on sait ^etre faux
DE fur wahr ausgeben, wovon man wei, da es falsch ist.
(13) FR
DE

:::
:::

les telegrammes qu'on imagine (^etre) tres prudents 23


die Telegramme, von denen man annimmt, da sie sehr vorsichtig sind.
:::

In [Krenn 1995] wird davon ausgegangen, da die Verben savoir, croire, considerer, imaginer, soutenir die in 12 und 13 illustrierte Konstruktion erlauben, aber nur eingebettet
in einem Relativsatz mit que/qu' als direktes Objekt24 .
Satzformige Prapositionalobjekte: Fur die franzosisch/deutsche U bersetzung sind auch
diejenigen Falle interessant, wo der Sachverhalts-Komplementsatz (auch im Deutschen)
die grammatische Funktion eines Prapositionalobjekts hat. Im Franzosischen sind in solchen Fallen In nitivkonstruktionen mit den Prapositionen a und de moglich, wahrend im
Deutschen bei bestimmten Verben nite Komplementsatze mit obligatorischem Korrelat
gesetzt werden mussen. Typische Beispiele sind die U bersetzungen von FR attraper (vgl.
14), benir (vgl. 15), blaguer (vgl. 16), complimenter (vgl. 17) und justi er (vgl. 18).
(14) FR On a attrape un gendarme a voler des poires
DE Man hat einen Polizisten dabei erwischt, wie er Birnen stahl25
(15) FR Je te benis d'y avoir pense
DE Ich preise/lobe dich dafur, da Du daran gedacht hast
(16) FR Tout le monde le blaguerait de rester seul
DE Jeder wurde ihn damit aufziehen/necken, da er alleine bleibt
(17) FR On a complimente le directeur d'avoir reussi un tel exploit
DE Man hat dem Direktor dazu gratuliert/dafur Komplimente gemacht (FVG!), da
er eine solche Leistung vollbracht hatte
(18) FR Il n'a pas pu justi er avoir paye cette facture
DE Er konnte nicht rechtfertigen, da/warum er diese Rechnung bezahlt hatte
Im Fall von FR condamner (vgl. 19) ist auch ein in nitivische U bersetzung im Deutschen26
denkbar. Bei den anderen oben genannten Beispielen ist dagegen eine In nitivkonstruktion
nicht moglich.
23 Vgl. [Krenn 1995]:237, mit DE U bersetzung von uns.
24 Vgl. die Einschrankungen im Fall von 11, oben.
25 Vgl. [Busse/Dubost 1983], s.v. attraper.
26 Ich konnte ihn kaum dafur verdammen, so gehandelt zu haben.

(19) FR J'aurais du mal a le condamner d'avoir agi ainsi


DE Ich konnte ihn schlecht dafur rugen/verdammen, da er so gehandelt hat
Bei der U bersetzung der Falle 14 bis 18 mu in der Zielsprache im \da-Satz" ein SubjektsPersonalpronomen eingesetzt werden27 .

6.3.2 Thematische Divergenz und Syntax-Semantik-Interaktion

Falle von thematischer Divergenz (Terminus von Dorr) sind in der Literatur zur maschinellen U bersetzung viel diskutiert worden. Das oben bereits angesprochene Beispiel, \EN
like $ FR plaire", wurde in Eurotra im Detail diskutiert. A hnliche \Beruhmtheit"
haben die in 24 und 25 nochmals mit Beispielen dargestellten Falle von \EN lack, miss,
FR manquer, DE fehlen".
(24) ENI miss my dictionary
FR Mon dictionnaire me manque
(25) ENThis girl lacks a good dictionary
DE Diesem Madchen fehlt ein gutes Worterbuch
Bei Fallen der thematischen Divergenz ist nicht nur das syntaktsiche Subkategorisierungsverhalten von Quell- und Zielsprache unterschiedlich, sondern der eigentliche Unterschied
27 Zwar kann dies weitgehend mechanisch, aus der morphosyntaktischen Analyse der Quellsprache abgeleitet werden, jedoch stellt dieser Fall insofern eine zusatzliche U bersetzungsschwierigkeit dar. Dieselben U bersetzungsregeln fur die Beschreibung von Zusammenhangen zwischen niten und in niten
Konstruktionen mussen auch bei der U bersetzung bestimmter Arten von Adjunkten angewendet werden. Analog zu der Situation bei Verbkomplementen gibt auch bei Adjunktsatzen oft genug eine
Alternationsmoglichkeit zwischen niten und in niten Konstruktionen, beispielsweise im Falle von
DE ohne da (vgl. 20), oder FR pour que, sans que (vgl. 21, 22):
(20) a. Er unterschrieb den Brief, ohne da er ihn nochmals las.
b. Er unterschrieb den Brief, ohne ihn nochmals zu lesen.
(21) a. Pour que vous puissiez lancer le programme, vous devez choisir l'option \A".
b. Pour lancer le programme, choisissez l'option \A".
(22) a. Elle est partie sans qu'elle ait laisse une trace.
b. Elle est partie sans laisser une/de trace.
Problematisch wird die U bersetzung dort, wo in der einen Sprache eine Alternation zwischen da-Satz
und In nitiv moglich ist, in der anderen nur ein da-Satz. Solche Falle liegen zwischen Franzosisch
und Deutsch bei FR de sorte a, de facon a, de maniere a vor, die alle lediglich mit DE soda ubersetzt
werden konnen, oder bei der U bersetzung von FR avant de durch DE bevor (vgl. 23):
(23) a. Je rends visite a mon oncle avant de partir pour les Etats-Unis.
b. Ich besuche meinen Onkel, bevor ich nach Amerika gehe.
Die kontrollierten Adjunkte beziehen sich grundsatzlich auf das Subjekt, soda bei der U bersetzung
zur Not aus der morphosyntaktischen Information ein Subjektspronomen generiert werden kann.

zwischen den beiden Sprachen liegt in der Abbildung der Verbargumente auf subkategorisierte Komplemente. Auf der Ebene der Pradikat-Argument-Struktur konnen Quell- und
Zielsprache strukturisomorph beschrieben werden. Unterschiede bestehen nur darin, wie
die einzelnen Argumente auf das Subjekt bzw. auf die Komplente von Quell- und Zielsprache abgebildet werden. Anhand des Paars \miss/manquer" ist dieser Sachverhalt in
Abbildung 6.4 dargestellt. Dabei sind die Komplemente jeweils durch gleichartige Symbole
dargestellt.
..

QS

Prad-Arg.Struktur

ZS

11111111111
00000000000
00000000000
11111111111
00000000000
11111111111

1111111111
0000000000
ARG-1
0000000000
1111111111
1111111111
0000000000

111111
000000
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111

111111
000000
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111

11111
00000
00000
11111
00000
11111
ARG-2
00000
11111
00000
11111
00000
11111

11111111111
00000000000
00000000000
11111111111
00000000000
11111111111

miss

my dictionary.

Mon dictionnaire

me

manque.

Abbildung 6.4: Thematische Divergenz: schematische Darstellung der Syntax-Semantik-Abbildung (vgl. Beispiel 24)

6.3.2.1 Beispiele fur thematische Divergenzen

Weitere U bersetzungsbeispiele fur thematische Divergenz bei zweistelligen Verben sind in


den Beispielsatzen 26 bis 32 angegeben.
(26) FR J'ai manque cette photo 28
DE Mir ist dieses Photo milungen
(27) FR Ses services lui ont merite cette recompense
DE Fur seine Dienste hat er diese Belohnung verdient
Er hat sich mit seinen Diensten diese Belohnung verdient
(28) FR Cette a aire n'a pro te qu'a Marie
DE Nur Marie hat von dieser Angelegenheit pro tiert
Diese Angelegenheit hat nur Marie genutzt
(29) DEMir widerstrebt (es), diese Arbeit zu tun
FR Je repugne a faire ce travail
(30) FR L'egout degorge de l'eau
28 Analog im Francais Parle: j'ai rate cette photo.

DE Aus dem Rohr iet Wasser


(31) DEIhr Argument leuchtet mir ein
FR Je comprends/accepte votre argument
(32) DEDa fallt mir mein Urlaub ein
EN I just remember my holidays
Analoge Probleme lassen sich auch bei dreistelligen Verben beobachten. Nachfolgend sind
Beispiele fur einige dreistellige Verben angegeben, bei denen typischerweise das thematische Argument in einer Sprache als direktes Objekt realisiert ist, in der anderen als
Prapositionalobjekt (vgl. die Beispiele in 33 bis 36).
(33) ENHans reminds the boss of the task
DE Hans erinnert den Chef an die Aufgabe
FR Hans rappelle la t^ache au chef
(34) FR Les medecins deconseillent ce medicament aux femmes enceintes
 raten Schwangeren von diesem Medikament ab
DE Die Arzte
(35) FR Max est arrive a desaccontumer son amie du tabac
DE Max hat es gescha t, seiner Freundin das Rauchen abzugewohnen
(36) FR L'orateur demande un verre d'eau au president
DE Der Redner bittet den Vorsitzenden um ein Glas Wasser

6.3.2.2 Thematische Divergenz vs. Alternation bei der


Argument-Komplement-Abbildung

U berall dort wo Verben in einer Sprache syntaktische Konstruktionsalternativen (\Alternationen" im Sinne von [Levin 1993]) zulassen, besteht die Moglichkeit, da bei der
U bersetzung thematische Divergenz-Probleme auftreten. Die Alternationen selbst konnen
im ubrigen als intralinguale Beispiele fur dasselbe Phanomen interpretiert werden.
Ein Beispiel aus der franzosisch/deutschen U bersetzung sind Verben zum Ausdruck
einer groen Quantitat von Objekten an einem bestimmten Ort, wie FR abonder, fourmiller, pulluler, grouiller: Beispiele sind in 37 und 38 angegeben.
(37) FR Les pissenlit abondent ici.
DE Es wimmelt hier von Lowenzahn.
(38) FR Mon jardin fourmille/pullule/grouille de pissenlits.
DE In meinem Garten wimmelt es von Lowenzahn.

In [Levin 1993] wird beobachtet, da syntaktische Alternationen oft einhergehen mit semantischen Klassi zierungen des Verbwortschatzes. Typische Beispiele sind die Alternationen, die man bei den \spray-load-Verben" beobachtet29 . Wo die Zugehorigkeit zu einer
Alternationsklasse in einer Sprache zusammenfallt mit der Zugehorigkeit zu einer semantischen Klasse, kann man die zusatzlich beobachtete thematische Divergenz bei der U bersetzung in eine andere Sprache naturlich wiederum mit der betre enden semantischen
Klasse in Verbindung bringen.

6.3.2.3 Behandlung von Thematischer Divergenz in constraint-basierten


Grammatiken

Alle Falle von thematischer Divergenz konnen relativ problemlos in einem auf grammatischen Funktionen aufsetzenden U bersetzungsansatz behandelt werden, wie er etwa in einem LFG-basierten System realisiert werden kann. Dort mu nur eine Aussage daruber gemacht werden, welche vom quellsprachlichen Verb subkategorisierte grammatische Funktion durch welche subkategorisierte grammatische Funktion der Zielsprache ubersetzt wird.
Solche Statements mussen in einem LFG-basierten Ansatz ohnedies fur jedes A quivalentpaar gemacht werden. Das bedeutet, da die thematische Divergenz vollstandig analog zu
den ublichen Abbildungen, ohne irgendwelche zusatzlichen Beschreibungsmittel, behandelt werden kann.
Ein Grammatik- und Lexikonmodell, welches neben der Beschreibung der Subkategorisierung auf der Ebene grammatischer Funktionen auch die Pradikat-Argument-Struktur
des Verbs auf der semantischen Ebene explizit notiert, mu die thematische Divergenz
als einen Fall unterschiedlicher Linking Rules oder von Unterschieden zwischen den Sprachen auf der Ebene des Lexical Mapping beschreiben. Solche Beschreibungen sind z.B. in
HPSG, sowieso notig; die thematische Divergenz kann also auch dort ohne zusatzlichen
Aufwand beschrieben werden. Dasselbe gilt fur Frame Semantics und die Beschreibungen,
die oben in Kapitel 4 diskutiert werden.

6.3.2.4 Thematische Divergenz vs. Informationsstruktur


Thematische Divergenzen haben auch Auswirkungen auf die Informationsstruktur: in
kon gurationalen Sprachen und in Sprachen mit (weitgehend) fester Wortstellung bzw.
Konstituenten-Reihenfolge haben die einzelnen grammatischen Funktionen typischerweise
jeweils eine bestimmte Funktion hinsichtlich der Informationsverteilung (im Sinne einer
Thema/Rhema-Beschreibung) im Satz. Aus der Sicht des italienisch/deutschen Sprachvergleichs hat sich beispielsweise [Koch 1994a], [Koch 1994b], [Koch 1995a], [Koch 1995b]
ausfuhrlich mit Unterschieden zwischen den beiden Sprachen hinsichtlich der \unmarkierten" Informationsverteilung befat. Zusatzlich zur Beschreibungsebene der grammatischen Funktionen und der Pradikat-Argument-Struktur (in Kochs Terminologie: \Semantisch-sachverhaltsdarstellende Struktur, Aktanten-Rollen") fuhrt Koch als dritte Beschreibungsebene die \Informationsstruktur" ein, die dazu dient, die Thema/Rhema-Gliederung
des Satzes anhand einer \Hierarchie" von grammatischen Funktionen im Hinblick auf Thematizitat vs. Rhematizitat zu beschreiben. Aus der Sicht der maschinellen U bersetzung
hat sich [Hauenschild 1987] mit derselben Fragestellung befat.
29 Eigentlich handelt es sich um zwei verschiedene Klassen.

Typischerweise sind sowohl im Italienischen als auch im Deutschen Subjekte besonders


thematisch, wahrend direkte und indirekte Objekte sich im Italienischen anders als im
Deutschen verhalten, was ihre relative Position auf der Skala zwischen Thematizitat und
Rhematizitat angeht; Koch stellt fest, da das direkte Objekt im Italienischen starker thematisch, das indirekte Objekt starker rhematisch sei, wahrend die Verhaltnisse im Deutschen genau umgekehrt liegen. Hieraus ergibt sich, da nicht notwendig eine U bersetzung
eines italienischen direkten Objekts durch ein deutsches direktes Objekt denselben Wert
auf der Ebene der inhaltsstrukturellen Beschreibung haben mu.
Die bei Hauenschild diskutierten Beispiele betre en Falle, wo fur ein Verb der Quellsprache alternativ zwei U bersetzungsaquivalente in der Zielsprache vorliegen, von denen eines
syntaktisch isomorph konstruiert wird, das andere eine thematische Divergenz aufweist.
Im speziellen Fall wird der thematischen Divergenz bei der U bersetzung jedoch der Vorzug gegeben, weil auf diese Weise informationsstrukturell analoge Satze in Quell- und
Zielsprache erzeugt werden konnen, wahrend dies mit der syntaktisch isomorphen U bersetzung nicht moglich ware. In Hauenschild's Beispielen 39 und 40 liegt im Deutschen
(vgl. 39) im zweiten Satz des zu ubersetzenden Texts eine markierte Wortstellung vor, die
im Englischen nicht isomorph nachgebildet werden kann.
(39) DEEuropa fordert die neuen Technologien. Zu diesen gehort die Informationstechnik.
(40) ENEurope supports the new technologies. These include information technology.
Die englische U bersetzung (vgl. 40) kann jedoch die Informationsstruktur, welche in 39
vorgegeben wird, dadurch nachbilden, da fur DE gehoren zu, statt EN belong to, EN
include verwendet wird. Das englische Verb [to] include fuhrt zwar zu einer U bersetzung
mit thematischer Divergenz, bewahrt jedoch die Verteilung von Thema und Rhema im
Satz (vgl. Abbildung 6.5)30.
Zu diesen

..
gehort

die IT.

These

IT

include

belongs

IT.

to these.

Abbildung 6.5: Thema/Rhema-Gliederung und thematische Divergenz, anhand eines Beispiels von [Hauenschild 1987]
An dieser Stelle kann auf die Zusammenhange zwischen thematischer Divergenz und
30 Die Keile, die unter die Satze in Abbildung 6.5 gelegt worden sind, sollen die Informationsstruktur
symbolisieren: das breite Ende der Keile steht fur die bekannte Information (Thema), das spitze Ende
fur die neu eingefuhrte Information (Rhema). Diese Darstellung weicht bewut von der Graphik bei
[Koch 1994a] ab.

Thema/Rhema-Gliederung nur hingewiesen werden. Forschungen uber die Integration solcher Parameter in MU -Systeme und ihre Worterbucher laufen erst an (vgl. neue Arbeiten
von Engdahl und Vallduvi)31.

6.3.3 \Inkorporation" von Argumenten und Adjunkten: \con ational" und


\lexical" divergence

Oben in Abschnitt 6.1.3.1 wurde bereits darauf hingewiesen, da die von Dorr als \con ational divergence" bzw. als \lexical divergence" bezeichneteten Unterschiede zwischen
Quell- und Zielsprache eigentlich ein und dasselbe Phanomen sind. In beiden Fallen geht
es darum, da in der einen Sprache ein spezi sches Lexem vorliegt, wo in der anderen
Sprache nur ein allgemeineres Lexem vorhanden ist, welches entweder durch Lexikalisierung eines Arguments32 oder durch Lexikalisierung eines Adjunkts spezialisiert werden
mu, wenn der spezi sche Ausdruck der Quellsprache ubersetzt werden soll.
Der einzige Unterschied zu \upward mismatches" besteht darin, da es in der Zielsprache relativ einfache lexikalische und/oder syntaktische Mittel gibt, mit denen der
spezialisierte quellsprachliche Ausdruck wiedergegeben werden kann, wahrend im Falle
von \upward mismatches" eben solche Mittel nicht zur Verfugung stehen. Der Unterschied
ist graduell (vgl. die Diskussion in Abschnitt 6.1.3.2, oben, Seite 189 und Abbildung 6.2,
Seite 192).
Wird zum Ausdruck der \di erentia speci ca" ein Adjunkt verwendet33 , so ist meist
das syntaktische Verhalten (Subkategorisierung) von quell- und zielsprachlichem Lexem
31 In einem constraint-basierten System mute die Ebene der Informationsstruktur als eine zusatzliche
Beschreibungsebene eingefuhrt werden, die zum Teil regelhaft mit der Beschreibung der grammatischen Funktionen interagiert. Sie bildet dann ein zusatzliches Constraint, insofern fur wohlgeformte
U bersetzungen angenommen wird, da zwischen Quell- und Zielsprache eine moglichst analoge Informationsverteilung angestrebt wird. Pragmatische Constraints dieser Art scheinen Prioritat gegenuber
den syntaktischen Constraints zu haben.
32 In den Beispielen 41 bis 45 sind einige franzosisch/deutsche und deutsch/englische Beispiele fur Falle
angegeben, bei denen Verbargumente im Sinne einer \lexical divergence" zum Ausdruck der \di erentia speci ca" verwendet werden.
(41) FR concourir (SUBJ)
DE an einem Wettbewerb teilnehmen
(42) DE abblenden (SUBJ: z.B. das Auto)
EN dim the/its headlights(vgl. [Thurmair 1990])
(43) FR debander qn. (SUBJ OBJ)
DE jmdm. den Verband abnehmen (SUBJ OBJ2)
(44) FR degon er le pneu (SUBJ OBJ)
DE die Luft aus dem Reifen herauslassen (SUBJ aus-OBJ)
(45) FR deprecier (SUBJ OBJ):
cette a aire deprecie ce territoire
DE den Wert von mindern (SUBJ)
<

>

33 Typische Beispiele sind in 46 bis 49 angegeben:


(46) FR embouteiller (SUBJ OBJ)

analog, wahrend es im Falle des Ausdrucks der Di erentia durch ein Verbkomplement abweichen kann. Wegen der allgemeinen Schwierigkeiten, das Vorhandensein von Adjunkten
im Lexikon anzugeben, sind Falle wie 46 bis 49 besonders problematisch.
Die hier diskutierten Falle treten nicht vollstandig unsystematisch auf, sondern sind
dort besonders hau g und zum Teil regelhaft anzutre en, wo sich zwei Sprachen hinsichtlich der Moglichkeiten zur Modi kation von Verbinhalten deutlich unterscheiden.
Ein Beispiel ist insbesondere die Verfugbarkeit von Wortbildungsprozessen. Die romanischen Sprachen haben die Moglichkeit, beispielsweise die Wiederholung eines Sachverhalts mit Wortbildungsmitteln (Pra x re-, ri-) auszudrucken. Im Deutschen und im Englischen mussen die romanischen wortgebildeten Verben mit Hilfe einer Kombination aus
dem A quivalent des Basisverbs und einem Adverb ubersetzt werden, wie im Beispiel 50
gezeigt ist. In ahnlicher Weise gibt es regelhafte Unterschiede bei \negativen" Verbpra xen: das Niederlandische kann die nicht sachgerechte Durchfuhrung einer Handlung durch
Pra xbildungen wie im Fall von 51 ausdrucken, wahrend im Franzosischen kein analoges
Wortbildungsprodukt zur Verfugung steht.
(50) FR revoir (SUBJ OBJ)
EN see again (SUBJ OBJ)34
(51)NL misraden (SUBJ)
FR deviner a c^ote (SUBJ)
Anders als in den Beispielen 41 bis 45 und 46 bis 49 kommt es durch Unterschiede in
der Verfugbarkeit von Wortbildungsmitteln zu Reihenbildung. Fur die niederlandischen
Pra gierungen mit mis- sind im wesentlichen zwei Schemata fur die A quivalentbildung
im Franzosischen verfugbar: das eine Schema nimmt als \genus proximum" das Basisverb
und realisiert durch einen Adjunkt die zusatzliche Bedeutungskomponente (fehlerhafte
Durchfuhrung (vgl. \Schema-1" in Tabelle 6.5)); das andere Schema wahlt als \genus
proximum" ein Verb, welches das fehlerhafte Durchfuhren einer beliebigen Aktion bezeichnet, und erganzt die spezi sche Art der Aktion durch einen Adjunkt (vgl. Schema 2
in Tabelle 6.5)35.
DE
(47) FR
DE
(48) FR
DE
(49) FR
DE

in Flaschen abfullen (SUBJ OBJ)


debroussailler (SUBJ OBJ)
von Gestrupp befreien (SUBJ OBJ)
aligner (SUBJ OBJ)
in einer Reihe anordnen (SUBJ OBJ)
dactylographier (SUBJ OBJ)
mit (der) Schreibmaschine schreiben (SUBJ OBJ)

34 Vgl. [Sadler/Schmidt 1992]:24/25.


35 In diesem Zusammenhang mussen auch die in der linguistischen Literatur viel diskutierten Beispielfalle der Verben der Bewegungsart und Bewegungsrichtung angesprochen werden, bei denen sich
das Franzosische und die anderen romanischen Sprachen merklich vom Englischen oder Deutschen
unterscheiden. In Beispiel 52 ist ein typisches Beispiel hierfur angegeben. Im Deutschen konnen Ver-

NL
zich misdragen
misvatten,
misverstaan
misraden
miswijzen
mislopen,
misrijden
misrekenen
misspringen
zich misspreken

FR
FR
Schema 1
Schema 2
mal se conduire
comprendre mal,
comprendre de travers
deviner a c^ote
donner une indication
erronnee
se tromper de route
faire une erreur de calcul
se tromper dans son calcul
manquer son saut

FR
andere
se meconduire (BELG.)

faire un lapsus

Tabelle 6.5: Schemata zur franzosischen U bersetzung von niederlandischen Verben mit
dem Pra x misDie Interaktion zwischen Wortbildung und U bersetzung wird anhand dieser Beispiele
sehr deutlich. Berucksichtigt man die Wortbildungsmuster, so lassen sich Wortbildungsprodukte in eine allgemeine Klassi kation von U bersetzungsproblemen einbinden. Umgekehrt wird klar, da ein vollstandiges U bersetzungsworterbuch oder eine vollstandige
kontrastive Grammatik die jeweils einzelsprachlich relevanten Wortbildungsmuster bei der

ben wie schwimmen sowohl eine Bewegungsart ausdrucken, als auch ein direktionales Komplement
subkategorisieren, durch welches die Bewegungsrichtung ausgedruckt wird. Im Franzosischen konnen
die ansonsten aquivalenten Verben vom Typ nager nur zum Ausdruck der Bewegungsart, nicht zum
Ausdruck der Bewegungsrichtung verwendet werden. Entsprechend ist eine mogliche U bersetzung des
deutschen Satzes in 52 ein Satz mit dem Hauptverb traverser, d.h. einem Verb zum Ausdruch der
Bewegungsrichtung, welches durch einen Adjunkt (a la nage) spezi ziert wird.
(52) DE Er schwimmt durch den Flu.
FR Il traverse le euve a la nage.

Formulierung von U bersetzungsregeln berucksichtigen mute36.

6.3.4 Divergenzen mit Auswirkungen auf das zu ubersetzende Lexem

Die in den vorausgehenden Abschnitten diskutierten Beispiele enthalten Divergenztypen,


die nur die syntagmatische Umgebung des zu ubersetzenden Lexems (in der Regel eines Verbs) betre en. Im Folgenden werden Beispiele diskutiert, die die Realisierung des
zu ubersetzenden Lexems selbst betre en. Der prominenteste Beispielfall hierfur ist die
kategoriale Divergenz.

6.3.4.1 Kategoriale Divergenz


Besonders hau g sind kategoriale Divergenzen, bei denen Verben der einen Sprache durch
Adjektivkonstruktionen der anderen Sprache ubersetzt werden mussen. Beispiele fur die
U bersetzung pradikativer Adjektive, beispielsweise des Deutschen, durch Verben des Englischen oder Franzosischen sind in 58 bis 60 angegeben. A hnliche Beispiele aus der englischfranzosischen U bersetzung sind in der Literatur zur maschinellen U bersetzung und insbesondere zu Eurotra ausfuhrlich diskutiert worden (vgl. 61 bis 67).
(58) DEEr ist in Amsterdam wohnhaft
EN He resides in Amsterdam
(59) DEIch bin ihr noch 10,- DM schuldig
EN I still owe her 10,- DM
(60) DEEr ist mit Problemen des Umweltschutzes befat
36 Hier kann auf dieses Problem nicht im Detail eingegangen werden. In ahnlicher Weise bleibt zu untersuchen, welche Regelmaigkeiten bei der U bersetzung von Verben durch Funktionsverbgefuge bestehen. Die Beispiele 53 bis 55 zeigen Falle, wo das Franzosische ein kausatives Verb hat, wahrend das
Deutsche als U bersetzungsaquivalent ein kausatives Funktionsverbgefuge verwenden mu.
(53) FR desequilibrer (SUBJ OBJ)
DE aus dem Gleichgewicht bringen (SUBJ OBJ)
(54) FR commercialiser (SUBJ OBJ)
DE auf den Markt bringen (SUBJ OBJ)
(55) FR conceptualiser (SUBJ OBJ)
DE auf einen/den Begri bringen (SUBJ OBJ)
Zusammenhange zwischen Wortbildung (hier im FR) und Funktionsverbgefuge sind in 56 und 57
illustriert.
(56) FR se demoder (SUBJ)
DE aus der Mode kommen (SUBJ)
(57) FR se desinteresser (SUBJ de-OBJ)
DE das Interesse verlieren (SUBJ an-OBJ)

FR Il s'occupe de problemes de la protection de l'environnement


(61) ENHe was present at the meeting
FR Il a assiste a la reunion.
(62) ENHe is able to solve the problem
FR Il sait/peut resoudre le probleme
(63) ENThis book is worth a lot
FR Ce livre vaut beaucoup37
(64) ENSue is likely to be 10 minutes late
FR Elle risque d'^etre en retard de 10 minutes
(65) ENSue is very fond of music
FR Elle aime beaucoup la musique 38
(66) ENHe is ashamed of it
DE Er schamt sich dafur
(67) ENHis attempt was successful/unsuccessful
FR Sa tentative a abouti/echoue39
A hnliche Falle nden sich auch in der U bersetzung zwischen Deutsch und Englisch, mit
gesprochenem Deutsch:
(68) DEDas ist mir recht/geschickt
EN That suits me
(69) ENApril 6th is possible for me
DE Der 6. April geht bei mir 40
Neben den hier diskutierten Fallen von Kategoriewechsel zwischen Verb und Adjektiv
treten vereinzelt auch Alternationen zwischen Adjektiv und Prapositionalphrase (70) oder
zwischen einfachen Prapositionen und idiomatischen Prapositionalphrasen (71) auf.
(70) ENI am in a hurry (PP)
FR Je suis presse 41
(71) FR un train en provenance de Paris
DE ein Zug von/aus Paris
37 Die Beispiele 61 bis 63 stammen aus [Crookston et al. 1990]:30.
38 Vgl. [Lindop/Tsujii 1991].
39 Vgl. [Vandooren 1993].
40 Die Beispiele 68 und 69 stammen aus Daten von Verbmobil.
41 Vgl. [Vandooren 1993].

6.3.4.2 Kategoriale Divergenz bei der U bersetzung von Verben durch


Funktionsverbgefuge

Eine weitere sehr groe Gruppe von kategorialen Divergenzen entsteht dadurch, da Verben einer Sprache durch Funktionsverbgefuge einer anderen Sprache ubersetzt werden
mussen42 .
Wenn man das Nomen in einem Funktionsverbgefuge in der selben Weise als Pradikat
beschreibt, wie ein Verb, dann ist die Klassi zierung als kategoriale Divergenz nur folgerichtig. Argumente hierfur und einen praktischen Vorschlag zur Realisierung im Rahmen
von HPSG hat [Kuhn 1994] gegeben. Die semantische Beschreibung des quellsprachlichen
Verbs und des zielsprachlichen Funktionsnomens sind in einem solchen Ansatz weitgehend
analog, so da in der Tat lediglich die kategoriale Realisierung (und z.T. davon abhangig,
der syntaktische Einbau in den zielsprachlichen Satz) zwischen Quell- und Zielsprache
unterschiedlich sind43 .

6.3.4.3 Andere Divergenzen mit Auswirkungen auf das zu ubersetzende


Lexem
Neben dem Kategoriewechsel zwischen Quell- und Zielsprache konnen verschiedene andere
Arten von Divergenzen mit Auswirkungen auf das zu ubersetzende Lexem auftreten.
Beispielsweise kann ein lexikalisierter Numerus- oder Tempusunterschied zwischen
Quell- und Zielsprache vorliegen, oder Quell- und Zielsprache unterscheiden sich dadurch,
da ein zu ubersetzendes Verb in der einen Sprache im Aktiv, in der anderen im Passiv
42 Ein ahnlicher Fall wurde bereits oben in Abschnitt 6.3.3 diskutiert, wo abgeleitete Verben durch
Funktionsverbgefuge ubersetzt werden muten. Man kann solche Falle einerseits unter die lexikalischen Divergenzen (bzw. \con ational divergence") rechnen, andererseits auch unter die kategorialen
Divergenzen.
43 Im Rahmen von Eurotra, sowie in [Vandooren 1993] wurden Beispiele dieser Art ausfuhrlich diskutiert (vgl. 72 bis 77).
(72) FR L'industrie a pu remedier a cette situation
DE Die Industrie konnte diese Situation in den Gri bekommen
(73) FR Les autorites ont envisage une telle evolution
DE Die Behorden haben eine solche Entwicklung in Betracht gezogen
(74) FR Le gouvernement a entame un nouveau programme
DE Die Regierung hat ein neues Programm in Angri genommen (Die Beispiele 72 bis 74 wurden
in Eurotra diskutiert, vgl. u.a. [Sadler/Schmidt 1992].)
(75) FR Les problemes ont ete rappeles a l'auditoire
DE Die Probleme wurden dem Auditorium in Erinnerung gebracht
(76) EN They can certainly trust her
FR Ils peuvent certainement avoir con ance en elle (vgl. [Caroli 1991])
(77) FR Il s'est suicide
EN He committed suicide

stehen mu44. In der Regel geht man davon aus, da die nur im Passiv auftretenden Verbformen, die eine spezielle Bedeutung haben, als eigene Lexeme (mit morpho-syntaktischen
Besonderheiten) jeweils einzelsprachlich aufgefuhrt und dann im zweisprachigen Lexikon
ohne besondere zusatzliche Angaben ubersetzt werden konnen.
Das einzige Problem bei dieser Art von Divergenzen besteht darin, da die StandardU bersetzungsregeln fur Aktiv- bzw. Passivsatze auf Grund der im Lexikon vorgegebenen
Merkmale auer Kraft gesetzt werden mussen. Dasselbe gilt fur \Unregelmaigkeiten"
bei anderen morphosyntaktischen Eigenschaften von Lexemen, wie etwa Numerus bei der
U bersetzung von pluralia tanta.

6.3.5 Head Switching: \demotional/promotional divergence"

Man konnte die U bersetzung von Satzadverbien durch Verben als eine Unterklasse von
kategorialen Divergenzen au assen. Allerdings ist die Beschreibung des Phanomens durch
\Head Switching"45 genereller: analoge Phanomene gilt es auch innerhalb von Nominalphrasen, bei der U bersetzung von Adjektiv-Nomen-Gruppen durch komplexe Nominalphrasen.
Die U bersetzung von Satzadverbien durch Verbalperiphrasen ist in der U bersetzungswissenschaft, speziell in der deutsch-franzosischen U bersetzung als Problem erkannt worden. [Zimmer 1990] gibt eine Reihe von deutsch-franzosischen Beispielen. Diese Art von
Beispielfallen ist ausfuhrlich von Sadler/Thompson und von [Zajac 1989] diskutiert worden. Sadler/Thompson hatten gezeigt, da ein ko-deskriptiver U bersetzungsansatz auf
der Grundlage von LFG, wie er in [Kaplan et al. 1989] vorgeschlagen wurde, nicht ohne
weiteres die U bersetzung von Head Switching bei Satzadverbien erlaubt. [Zajac 1989] hat
in einer typisierten Reformulierung des LFG-basierten Transferansatzes gezeigt, wie die
44 Beispiele hierfur sind in 78 bis 83 angegeben.
(78) EN Es besteht aus zwei Teilen
DE It is composed of two parts (vgl. [Thurmair 1990])
(79) DE Die Wirkung beruht auf dem Prinzip des
EN The impact is based on the principle of
(80) DE Er heit Max.
EN He is called Max.
(81) FR L'eto e qui habille ce fauteuil
DE Der Sto , mit dem der Stuhl bezogen ist,
(82) EN You are supposed to talk
DE Sie sollen sprechen
(83) EN You are allowed to ask questions
DE Sie durfen Fragen stellen
:::

:::

:::

:::

45 Vgl. die Diskussion oben, in Abschnitt 6.1.3.1, Seite 188. Satzadverbien sind semantische Kopfe;
sie nehmen einen Satz als Argument. Dieser semantischen Kop unktion entspricht aber nicht eine
syntaktische Kop unktion, weil Satzadverbien auf der Satzebene als Adjunkte (Modi ers) beschrieben
werden.

Probleme in einem relationalen U bersetzungsansatz gelost werden konnen. Eine Liste mit
Beispielen ndet sich in Tabelle 6.6.
Adverbien
DE zufallig
DE gerne
FR autrefois, il y avait un pub ici
EN he merely said yes
DE Er wird sicher antworten
DE Er kommt gleich
DE mitunter
DE immer wieder
DE anfangs, zuerst
DE wieder, weiter(hin), zusehends
DE trotzdem
DE gerade
DE beinahe, fast
DE gewohnlich, jedesmal
DE standig, unentwegt, unaufhorlich
DE anscheinend, o enbar
DE zufallig (sein)
DE unerwartet
DE schlielich
DE allmahlich ( werden)
DE immer noch, ununterbrochen
DE sogar
:::

Verbale Ausdrucke
EN happen to
EN like to
EN there used to be a pub
FR il se contenta de dire oui
FR Il ne manquera pas de repondre
FR Il ne tardera pas de venir
FR il arrive (a qn) de INF
FR ne pas cesser de INF
FR commencer par INF
FR continuer de INF
FR ne pas emp^echer (qn) de INF
FR ^etre en train de INF
FR faillir INF
FR avoir l'habitude de INF
FR ne pas se lasser, ne pas desemparer de INF,
ne pas cesser de INF, ne pas (s')arr^eter de INF
FR sembler INF
FR se trouver ^etre
FR venir a INF
FR nir par INF
FR commencer a INF (passiv)
FR continuer de/a INF
FR aller jusqu'a INF
:::

Tabelle 6.6: Beispiele fur Head-Switching


Wahrend die U bersetzung von Satzadverbien durch Verbalperiphrasen relativ gut erforscht ist, fehlen Arbeiten uber Head Switching-Phanomene in Nominalphrasen. Die in
84 bis 86 angegebenen Beispiele haben eher anekdotischen Charakter.
(84) ENa hundred collaborators
FR une centaine de collaborateurs
(85) ENthe draft proposal
FR le brouillon de la proposition46
(86) ENan attempted murder
FR une tentative de meurtre 47
46 Vgl. [Crookston et al. 1990]:72.
47 Vgl. [Lindop/Tsujii 1991].

6.3.6 Divergenzen mit Auswirkung auf das zu ubersetzende Lexem und auf
die syntagmatische Umgebung

Die oben beschriebenen Beispiele von Divergenzen betre en entweder die syntagmatische
Umgebung des zu ubersetzenden Lexems oder dieses Lexem selbst. Selbstverstandlich gibt
es auch Falle, wo die beiden Typen interagieren. Insbesondere zieht die kategoriale Divergenz zum Teil Unterschiede in der Abbildung zwischen Argumenten und Komplementen,
d.h. thematische Divergenzen, nach sich. In 87 bis 89 sind Beispiele fur die Kombination von thematischer Divergenz und kategorialer Divergenz zwischen Adjektiv und Verb
angegeben.
(87) FR Nous disposons d'un telecopieur
EN A fax is available to us
(we have a fax (at our disposal))48
(88) FR Cette tache incombe a Jean
EN John is responsible for this task 49
(89) DEDas ist mir lieber
EN I prefer that50
Hier werden keine weiteren Beispiele fur diesen Typ diskutiert; er ndet sich allerdings
relativ hau g in Paralleltextmaterial.

6.4 Kontrastive Klassen in Worterbuchern fur maschinelle U bersetzung


In Abschnitt 6.3 wurden Beispiele fur lexikalische U bersetzungsprobleme diskutiert, die
nach den in Abschnitt 6.2 beschriebenen Prinzipien klassi ziert wurden.
Die empirische Klassi kation kann als Grundlage fur eine formale Modellierung herangezogen werden. In den folgenden Abschnitten werden je ein Beispiel fur die Kodierung von
kontrastiven Klassen fur Divergenzprobleme in einem Transfer- und einem InterlinguaSystem gezeigt. Die als Beispiele verwendeten Systeme sind eine Remodellierung des
kodeskriptiven Ansatzes zur transfer-basierten maschinellen U bersetzung mit LFG (vgl.
[Kaplan et al. 1989]), bzw. ein interlingua-basierter Ansatz zur U bersetzung mit HPSG,
bei dem die semantische Reprasentation von HPSG (CONTENT-Wert) als gemeinsame abstrakte Beschreibung der aquivalenten Satze von Quell- und Zielsprache angesetzt wird.
Beide Systeme sind ansatzweise mit dem TFS-Formalismus kodiert worden51 .
Die kontrastiven Klassen haben naturlich auerdem eine Relevanz fur ein multifunktionales kontrastives Worterbuch: die monolingualen Beschreibungen, die oben in Kapitel
4 diskutiert wurden, konnen so kombiniert werden, da der Vergleich des Subkategorisierungsverhaltens der quell- und zielsprachlichen Lexeme anhand der Klassen aus Abschnitt
48 Vgl. [Crookston et al. 1990]:30.
49 Vgl. [Crookston et al. 1990]:30.
50 Aus Material von Verbmobil.
51 Die Kodierungsarbeit zum transfer-basierten LFG-Fragment wurde von Andreas Haida durchgefuhrt,
die Kodierung des HPSG-Fragments wurde von Jonas Kuhn geleistet. Vgl. [Heid/Kuhn 1994].

6.3 formalisiert werden kann; ein einfaches Beispiel dafur wird in Abschnitt 6.5 diskutiert:
eine kontrastive Anwendung der auf Frame Semantics beruhenden Beschreibungen von
Wahrnehmungsverben52 . Die entstehenden Beschreibungen sind, wie die Resultate der
Van Dale-Worterbuchkonversion, richtungsunabhangig.

6.4.1 Monolinguale und kontrastive Subkategorisierungsklassen in einem


transferbasierten MU -Worterbuch auf der Grundlage von LFG

Beispiele fur Subkategorisierungsangaben in LFG-Worterbucheintragen wurden bereits


oben in Abschnitt 4.3.4 angegeben. Die Subkategorisierungseigenschaften von Pradikaten werden in Pradikat-Argument-Strukturen ausgedruckt, in denen die grammatische
Funktion der subkategorisierten Komplemente angegeben ist; auerdem werden expletive
Elemente, die Kontrollrelation bei in niten Komplementen, die Selektion von Complementizern bei niten Komplementen und weitere syntaktische Eigenschaften angegeben.
Daneben konnen in LFG \Templates" fur Subkategorisierungsbeschreibungen formuliert werden. Die Templates bilden eine sehr ache Hierarchie und konnen als Abkurzungen
fur Pradikatswerte und fur die ggf. notwendige Zusatzinformation benutzt werden.
In den Subkategorisierungstemplates sind die lexemspezi schen Pradikatsnamen durch
Variablen ersetzt. Einfache Beispiele sind in Abbildung 6.6 zusammengestellt. Dort sind
unter No. (1) und No. (2) jeweils vollstandige Lexikoneintrage fur ein transitives und
ein intransitives Verb angegeben, unter No. (3) und No. (4) die Templatede nitionen fur
transitive und intransitive Verben und unter No. (5) und No. (6) einfache Verbeintrage,
die auf die Templates verweisen.
No. Template-De nition Verb-Eintrage
(1)
acheter, V
(2)
venir, V
(3) transitive (x):x, V,
(4) intransitive (x):x, V,
(5)
@transitive (acheter)
(6)
@intransitive (venir)

Pradikat-Argument-Strukturen
(" pred) = \acheter (" subj) (" obj) "
(" pred) = \venir (" subj) "
(" pred) = \x (" subj) (" obj) "
(" pred) = \x (" subj) "
<

>

<

>

<

<

>

>

Abbildung 6.6: Einfache Beispiele von Subkategorisierungs-Templates von LFG


In einer getypten Remodellierung des LFG-Fragments, welches in [Kaplan et al. 1989] beschrieben worden ist, hat [Zajac 1992] Worterbucheintrage aus LFG im TFS-Formalismus
(Typed Feature Structures) reprasentiert. In seiner Modellierung werden die Funktionsnamen aus LFG als Attributnamen verwendet, und als Werte dieser Attribute werden
Typen eingesetzt, die aus einer Klassi kation von syntaktischen Kategorien (Phrasen)
52 Die Formalisierung kann im vorliegenden Rahmen nur anhand einzelner Beispiele (vgl. Abschnitt 6.5)
gezeigt werden. Die Vorgehensweise folgt den Verfahren, die in [Heid/Kuhn 1994] implementiert wurden, benutzt aber die Beschreibungen aus Kapitel 4. Relativ zu einer gegebenen Rollenkonstellation
werden jeweils einzelsprachliche Teilbeschreibungen mit relationalen Constraints verbunden. Die sich
ergebenden Strukturen enthalten uber die unten gezeigte Anwendung hinaus genug Information, als
da Worterbucheintrage im Format eines Transfer-Ansatzes oder eines Interlingua-Ansatzes abgeleitet
werden konnen.

stammen. Somit wird die in den Standard-Lexikoneintragen von LFG nur implizit angegebene Information explizit gemacht, durch welche syntaktischen Kategorien die einzelnen grammatischen Funktionen realisiert werden konnen. Die von [Zajac 1989] benutzten
Worterbucheintrage sind damit den Eintragen aus DELIS und den Angaben in HPSGWorterbuchern relativ ahnlich, was ihren Informationsgehalt angeht. Auf der Grundlage
solcher Eintrage lassen sich die oben in Abschnitt 6.3 empirisch identi zierten Klassi zierungen relativ problemlos modellieren.
Ein einsprachiger Lexikoneintrag fur das franzosische Verb deconseiller in der von Zajac verwendeten Notation ist in Abbildung 6.7 angegeben, wobei unter (1) die in LFG ubliche Notation angegeben ist, unter (2) Zajacs Reformulierung als Attribut-Wert-Struktur
von TFS.
(1) deconseiller, V, (" pred) = `deconseiller
(2) f-vp [pred: \deconseiller",
subj: f-np,
obj:
f-np,
obj2: f-pp [prep: \a"]].

<

(" subj) (" obj) (" obj2)

>

'

Abbildung 6.7: Eine LFG Pradikat-Argument-Struktur in der von [Zajac 1992] benutzten
Notation
Die oben in Abbildung 6.6 dargestellten Templates konnen analog in der Zajac-Notation
formuliert werden. Dazu mu lediglich sichergestellt werden, da die Werte des Attributs
pred von einem de nierten Typ predicate sind und da das ganze Template seinerseits
einen Typnamen hat, damit aus den einzelnen Worterbucheintragen auf es verwiesen werden kann.
In derselben Weise, in der monolinguale Templates formuliert werden konnen, konnen
kontrastive Beschreibungen ebenfalls durch Templates abgekurzt werden. Hierzu werden ebenfalls die Pradikat-Werte als Variablen aufgefat, und die Abbildungen zwischen
Pradikat-Argument-Strukturen von Quell- und Zielsprache werden als Subtypen einer allgemeinen Transfer-Relation tr formuliert. Der Formalismus von TFS erzwingt, da die
U bersetzungsregeln in einer Spezialisierungshierarchie angeordnet werden. Jede U bersetzungsregel steht fur ein Paar aus quell- und zielsprachlichen Subkategorisierungstemplates
und den zugehorigen expliziten Angaben uber die Zuordnung zwischen den Bausteinen
der quell- und zielsprachlichen Eintrage. Die Strukturierung als Spezialisierungshierarchie
erlaubt es, zum Beispiel alle Falle von thematischer Divergenz bei zweistelligen Verben in
einer gemeinsamen Klasse zu beschreiben, die Unterklassen aufweist, je nach den grammatischen Funktionen, die miteinander in Beziehung gesetzt werden. Einzelne A quivalentpaare werden danach klassi ziert, zu welchem Abbildungstyp sie zu rechnen sind.
Ein einfaches Beispiel fur die Formulierung solcher kontrastiver Templates ist in Statement 90 anhand des oben in Abschnitt 6.3.2 (vgl. Beispiel 24, Seite 201) bereits diskutierten Beispiels des A quivalentpaars FR manquer $ EN miss angegeben:
(90)

FR: Mon dictionnaire me manque


$

EN: I miss my dictionary


tr-025[FF: f-vp[SUBJ: #f-subj,

OBJ2: #f-obj2],
FE: e-vp[SUBJ: #e-subj,
OBJ : #e-obj]]
:-tr[FF: #f-subj,
FE: #e-obj],
tr[FF: #f-obj2,
FE: #e-subj].
tr-vv[FF: [PRED: manquer],
FE: [PRED: miss]].
tr-025 < tr.
tr-vv < tr.

Die De nition der Klasse tr-025 besteht, wie die meisten TFS-De nitionen aus einem
strukturde nierenden Statement und einem Statement, das die Position von tr-025 in
der Hierarchie der Transferstatements angibt.
Vereinfachend wird hier angenommen, da tr-025 eine unmittelbare Subklasse der
allgemeinsten Transferabbildung sei, d.h. von tr im LFG-Template-System (Statement:
\tr-025 tr.")53 .
Die Strukturde nition legt die Subkategorisierungsklassen von Quell- und Zielsprache
fest, indem die jeweils relevanten grammatischen Funktionen (im Franzosischen Subjekt
und (indirektes) Objekt-2, im Englischen Subjekt und Objekt) angegeben werden54 . Auerdem enthalt die De nition eine Bedingung. Diese besteht aus der rekursiven Anwendung der allgemeinen Transferregel tr auf die Verbargumente in beiden Spachen; hier
wird die Abbildung des franzosischen Subjekts auf das englische Objekt, bzw. von FR
Obj2 auf EN Subj, festgeschrieben.
Die Subkategorisierungs-Abbildung ist lexemunabhangig. Daneben gibt es ein lexikalisches Statement (tr-vv), welches die A quivalenz zwischen den Verbpradikaten beider
Sprachen postuliert, und welches wiederum ein Subtyp der allgemeinen Transferrelation
tr ist (Statement: \tr-vv
tr.").
Wie bereits oben in Abschnitt 3.1.3.2 angedeutet, kann wegen der Verfugbarkeit von
relationalen Constraints in TFS die Formulierung von kontrastiven Klasssen durch Relationen erfolgen, d.h. sie ist richtungsunabhangig. Die Modularisierung der kontrastiven
Beschreibungen, die beispielhaft in Statement 90 gezeigt wird, unterstutzt ein solches
Vorgehen55 .
In [Heid 1994a] und in [Heid 1994] wurden weitere Beispiele fur die Modellierung
kontrastiver Klassen in einem LFG-basierten Transferansatz diskutiert56 . Folgende Vor<

<

53 In einem vollstandig ausgearbeiteten System wurde tr-025 naturlich unter der Klassende nition fur
thematische Divergenzen angeordnet.
54 Alternativ konnte auf Template-Namen verwiesen werden, die dort als Abkurzungen der Subkategorisierungsklassen dienen.
55 Dies entspricht dem Vorschlag, der oben, in Abschnitt 6.1.3.1 gemacht wurde, z.B. Dorrs demotional
und promotional divergence in eine Klasse zusammenzufassen.
56 Der Transfer auf f-Strukturen, wie er in [Kaplan et al. 1989] (jetzt auch in [Dalrymple (Ed.) 1995], in
[Kaplan/Wedekind 1993] etc.) beschrieben ist, wird im Rahmen einer Zusammenarbeit zwischen Rank

und Nachteile der Modellierung haben sich anhand bisheriger Experimente herausgestellt:
 Die Formulierung der kontrastiven Klassen ist relativ nahe an der lexikographischen
Intuition, bzw. erlaubt deren Umsetzung ohne besonderen Aufwand.
 Das Ziel der Redundanzminimierung wird beim Aufbau einer Spezialisierungshierarchie erfullt.
 Die kontrastiven Klassen konnen durch Kombination bestehender monolingualer
Subkategorisierungsklassen entwickelt werden. Gegenuber der monolingualen Beschreibung macht die kontrastive Klassi kation keine neuen Beschreibungsmittel
notig. Die Datenstrukturen der Transferhierarchien lassen sich ohne Schwierigkeiten
in eine TFS-Modellierung im Stil von Zajac einbinden. Eine analoge Modellierung
im Template-Mechanismus von LFG ist weitgehend moglich.
 bersetzung mu nicht
 Die Klassen konnen lokal beschrieben werden, d.h. bei der U
in eines der Argumente des quellsprachlichen Verbs \hineingeschaut" werden, damit entschieden werden kann, wie die umgebende Struktur behandelt wird; damit
entfallt die Notwendigkeit, fallweise \vorherzusehen", welche U bersetzungsprobleme auftreten konnten. Vielmehr konnen Teilbeschreibungen kombiniert werden: sie
wirken dann gemeinsam als komplexes Constraint.
 bersetzungs Probleme ergeben sich allerdings bei der Auswahl aus alternativen U
Relationen. Hier sind geeignete Kontrollstrukturen notig, die es erlauben, aus mehreren A quivalentkandidaten auszuwahlen, bzw. Kon iktfalle zu losen57.
 Formale Probleme bereitet die Tatsache, da Zajac die Namen der subkategorisierten
grammatischen Funktionen als Attributnamen benutzt. Dieses Problem wurde in
den DELIS-Worterbuchern durch die Kodierung der Subkategorisierung als Listen
und die Modellierung von grammatischen Funktionen als Typen (vgl. Kapitel 4)
umgangen und kann hier in analoger Weise gelost werden.

6.4.2 Behandlung von Divergenz in einem HPSG-basierten


Interlingua-Ansatz

In [Heid/Kuhn 1994] wurde die Behandlung der wichtigsten Divergenztypen in einem


HPSG-basierten Interlingua-Ansatz ausfuhrlich beschrieben, und die Probleme und Losungsansatze wurden anhand von Beispielen diskutiert. Das in [Heid/Kuhn 1994] beschriebene
Fragment deckt die oben in Abschnitt 6.1.3.1 dargestellten vier (bzw. bei Dorr sechs) Klassen von Divergenzen, sowie die einfachen Falle von upward bzw. downward mismatches
ab. An dieser Stelle genugt es, die relevanten Ergebnisse zusammenzufassen. Ein kurzer Abri des in [Heid/Kuhn 1994] beschriebenen experimentellen U bersetzungssystems
wurde in der Einleitung, in Abschnitt 1.2.2 gegeben.
Xerox Research Centre, Grenoble, Xerox PARC und der Universitat Stuttgart (1995/96) bei der U bersetzung von Fachtexten Deutsch $ Englisch in groerem Umfang erprobt. Die Transferannotationen
werden den hier beschriebenen Vorschlagen weitgehend folgen (monolinguale Subkategorisierungstemplates, Templates fur die Zuordnung von Subkategorisierungsklassen, Zuordnungen von Pradikaten).
57 Im Rahmen von Verbmobil wurden in jungster Zeit Vorschlage hierzu von Dorna/Emele erarbeitet,
allerdings auf der Grundlage starker semantikbasierter Reprasentationen.

Falle von syntaktischer und von thematischer Divergenz konnen in einem HPSG-basierten
Ansatz mit denselben Mitteln behandelt werden. Eine U bereinstimmung der CONT(ent)Werte, die die Grundlage des interlingua-artigen Ansatzes ist, ist trivialerweise erreichbar,
weil sich Quell- und Zielsprache ausschlielich in der Valenz-Beschreibung bzw. in der
Abbildung unterscheiden, welche die subkategorisierten Erganzungen zu den Rollen der
Content-Beschreibung in Beziehung setzt.
Als Beispiel wird hier nochmals die A quivalenz zwischen FR manquer und EN miss
herangezogen (vgl. Abschnitt 6.3.2, Beispiel 24, Seite 201). In 91 und 92 ist fur EN miss
und FR manquer jeweils ein Worterbucheintrag aus einem HPSG-Lexikon (in vollstandig
expandierter Form) angegeben. Die \semantischen" Teilstrukturen, die als Wert des CONTAttributs in den Eintragen auftreten, sind in beiden Worterbucheintragen identisch. Unterschiede gibt es lediglich in der Abbildung zwischen den semantischen Teilstrukturen
und den syntaktischen Teilstrukturen, die unter dem Pfad CATjVAL eingebettet sind. Da in
HPSG die Abbildung zwischen Argumenten (hier bezeichnet durch Attributnamen \exper(iencer), theme") und subkategorisierten Verbkomplementen (hier jeweils in einer
Liste der Subjekte (subj) und der Komplemente (comps)) explizit durch KoindizierungsMarkierungen (\Tags") formuliert wird, genugt fur die Behandlung der thematischen Divergenz die unterschiedliche Zuweisung der Tags.
3

phon hmissesi 2
6

(91)

37
37
2
6


6
77
6
7
6
vform
n
6
77
6
7
6
head
6
77
6
7
6
verb
7
6
7
6
6
3777
2
6cat 6
6
77
6
6
7
6
subj
hNP[nom] 1 i57
6
77
6
6
4
77
6
val
5
4
6
6
6
compshNP[acc] 2 i 77777
6synsemjloc6
77
6
6
3
2
77
6
6
77
6
6
reln
miss
77
6
6
7
6
77
6
6
6exper 1 7
77
6cont
6
5
4
77
6
6
77
6
6
2
theme
55
4
4

word

miss-soa

phon hmanquei2
6

(92)

3
37
2
6
7


6
77
6
6
7
vform n
6
77
6head
6
77
6
7
6
6
verb
77
6
6
37
2
77
6cat 6
7
6
6
7
6
7
6
6
subj
hNP[nom] 1 i577
77
6
6
6
7
4
6
57
4val
6
77
6
6
i
comps
h
NP[dat]
2
77
6synsemjloc6
77
6
6
2
3
77
6
6
77
6
6
reln
miss
77
6
6
6
7
77
6
6
6
7
77
6cont
2
exper
6
4
5
77
6
6
77
6
6
theme 1
57
4
4
5

word

miss-soa

Die Behandlung von Inkorporation von Argumenten, d.h. von \con ational" bzw. \lexical" divergences (Dorr) mu dem Phanomen Rechnung tragen, da die eine Sprache
einen komplexen Ausdruck mit subkategorisierten Komplementen oder Adjunkten verwendet, wo die andere Sprache einen einzigen Ausdruck benutzt, ohne Erganzungen. Da

die gemeinsame Bedeutungsreprasentation fur Quell- und Zielsprache immer so detailliert


sein mu, da sie eine Beschreibung der komplexest moglichen Ausdrucke erlaubt, mu
der komplexe Ausdruck als Grundlage fur die Modellierung in der Content-Beschreibung
herangezogen werden. Die beiden Sprachen unterscheiden sich dann lediglich darin, ob
eines der in der Content-Beschreibung vorhandenen Argumente eine Abbildung auf ein
subkategorisiertes Komplement des jeweiligen Verbs hat oder nicht58 .
In Beispiel 93 ist der HPSG-Lexikoneintrag fur EN [to] sta angegeben. Als franzosisches U bersetzungsaquivalent fur [to] sta ist FR pourvoir en personnel vorgesehen.
Das franzosische Verb pourvoir hat ein Prapositionalobjekt (en personnel), welches im
franzosischen Lexikoneintrag auf die Rolle theme abgebildet wird. Der englische Lexikoneintrag mu ebenfalls eine theme-Rolle enthalten, jedoch wird keine Abbildung von der
semantischen Relation theme auf ein syntaktisches Komplement angegeben. Auerdem
wird, gewissermaen als Vor-Belegung der Content-Beschreibung, fur die theme-Rolle
festgelegt, da diese Rolle nur durch ein Objekt vom Typ personnel gefullt sein kann.
3

6phon hsta si

(93)

2
37
6
2
3 7


7
6
6
6
77
vform
n
6
6head
7 77
6
6
6
7 77
6
verb
6
6
7 77
6
2
3
6
6
7 77
6
cat 6
6
7 77
6
subj
h
NP[nom]
i
6
6
6
77
1
4
57
6
val
4
5 77
6
6
6
77
comps
h
NP[acc]
i
2
6
77
6synsemjloc6
6
77
3
2
6
6
77
6
6
77
reln
provide
7
6
6
77
6
6
6
77
7
6
6
1
6
7
777
6agent
6
6cont
777
6
6
6
777
6goal 2
6
6
577
4
7
6
6
3 jfpersonnel( 3 )g 57
6
theme
4
5
4

word

sta -soa

Falle von Head Switching lassen sich in einem HPSG-basierten Ansatz relativ einfach
beschreiben, da HPSG zwischen syntaktischen und semantischen Kopfen unterscheidet.
In Adjunktstrukturen wie in 94a ist die \Adjunct Daughter" der semantische Kopf. Der
Lexikoneintrag fur ein Satzadverb, wie beispielsweise EN still (vgl. 95) zeigt dies: in der
syntaktischen Beschreibung (unter dem Pfad CATjHEAD) wird de niert, da das Adverb als
Modi kator eine Verbalphrase nimmt. In der Bedeutungsbeschreibung (unter dem CONTAttribut) wird eine Relation \still" eingefuhrt, deren Argument ein Sachverhalt (soaarg) ist. Wenn man EN still durch FR continuer a Inf ubersetzen mochte, wie etwa in
den Beispielen 94a $ 94b, so mu ein Worterbucheintrag fur FR continuer formuliert
werden, wie er in 96 angegeben ist.
(94) a. EN Marc still smokes
b. FR Marc continue a fumer
58 Die Verhaltnisse sind etwas schwieriger bei Fallen, wo die \di erentia speci ca" durch ein Adjunkt
ausgedruckt wird (vgl. die Beispiele 46 bis 49 aus Abschnitt 6.3.3, Seite 206, oben). Neben der Subjektliste und der comps-Liste wird in HPSG auch eine Adjunktliste benutzt. Die Einbindung dieser
Liste in lexikalische Beschreibungen fur Falle wie 46 bis 49 steht allerdings noch aus.

6phon hstilli

(95)

37
2
6
2

3 7
7
6
7
6
6
2 77
mod
VP:
7
6
6head
6
7
6
6
777
6
adv
6
6
7
7
6
2
3 777
7
6
6cat 6
6
6
777
6
subj
h
i
6
6
77
5 7
6synsemjloc6
4val 4
577
6
6
77
6
compsh i
6
77
6
6
77
6
3
2
6
77
6
6
77
6
reln
still
6
77
6
5
4
6
cont
57
4
5
4
2

soa-arg

6phon hcontinuei
2

(96)

6
2


6
6
6
6
vform
n
6
6
6
6head verb
6
6
6
6
2
6
6
6
6
6
6
cat
6
6
h 1 NP[3sg]
i
6
6subj 


6
6
6synsemjloc6
6val 6
6
4
6
4
6
comps VP inf; subjh 1 i :
6
6
6
6
6
6
2
3
6
6
6
6
reln
still
6
6cont4
5
6
4
2
4

soa-arg

7
337
7
77
777
777
77
37
777
777
777
7
77
77
77
57
577
77
77
77
77
77
77
57
5

Die Behandlung von Head Switching mit den hier aus [Heid/Kuhn 1994] ubernommenen Beschreibungsmitteln erlaubt auch die Behandlung von eingebetteten Strukturen mit
Head Switching. Die Beispiele und die Diskussion in [Heid/Kuhn 1994] zeigen, da sich
fur die Behandlung von Divergenzen in HPSG generelle Losungen aus der Kombination
der monolingualen Eintrage ergeben. Bedingung dafur ist allerdings die Benutzung einer
gemeinsamen semantischen Reprasentation und die Formulierung semantischer Beschreibungen, die so detailliert sind, wie sie zur Behandlung derjenigen Sprache sein mussen,
die die komplexere Konstruktion aufweist. Unter diesen Bedingungen konnen die in Abschnitt 6.3 beschriebenen und empirisch klassi zierten Phanomene in diesem Ansatz modelliert werden. Wiederum sind keine zusatzlichen Beschreibungsmittel oder spezi schen
Datenstrukturen notig, damit quell- und zielsprachliche Beschreibung kombiniert werden konnen. Die Modellierung in TFS ist wieder relational, d.h. die Beschreibungen sind
wiederum sprachrichtungs-neutral.
Die Notwendigkeit paralleler Beschreibungen, d.h. solcher die auf denselben Grundannahmen, demselben Inventar von Beschreibungsmitteln und letzlich auf analogen Modellierungen fur die beteiligten Sprachen aufbauen, wird im Falle der semantischen Beschreibungen jedoch besonders deutlich. Das HPSG-U bersetzungssystem kommt ohne explizite
zweisprachige Worterbucheintrage aus; dagegen mu mehr Modellierungsaufwand in die
einsprachigen Eintrage und in die \semantische" Reprasentation investiert werden. Die
kontrastiven Klassen stellen hier eine abstrakte Modellierungsrichtlinie dar, anhand deren Worterbucheintrage erstellt und die Syntax-Semantikabbildungen jeweils reprasentiert
werden.

6.5 Kontrastive Anwendungen von constraint-basierten Frame


Semantics-Worterbuchern
Im folgenden Abschnitt werden kontrastive Anwendungen der constraint-basierten monolingualen Worterbuchfragmente beschrieben, die im Detail im Kapitel 4 eingefuhrt worden
sind. Im DELIS-Projekt wurden monolinguale Worterbuchfragmente fur den Bereich der
Wahrnehmungsverben und der Sprechaktverben entwickelt. Das Fragment der Wahrnehmungsverben liegt in den funf Sprachen Englisch, Franzosisch, Italienisch, Niederlandisch
und Danisch vor, das Fragment der Sprechaktverben lediglich in Englisch, Niederlandisch
und Italienisch. Die Fragmente sind in dem in Abschnitt 1.1.2 geforderten Sinne parallel, d.h. sie decken ungefahr ubersetzungsaquivalente A uerungen ab und sie beruhen auf
einem gemeinsamen Inventar von Beschreibungsmitteln und auf einer einheitlichen Architektur: den in den fruheren Kapiteln dieses Buchs ausfuhrlich dargestellten Prinzipien.
Die hier vorgestellte Anwendung kann also als Validierung der in den Kapiteln 3, 4 und
5 dargestellten Prinzipien angesehen werden.
Fur die Prasentation der Ergebnisse des bilingualen bzw. multilingualen Vergleichs von
monolingualen Beschreibungen, der der kontrastiven Anwendung zugrundeliegt, wird das
Prasentationsformat verwendet, welches fur die lexikographische Anwendung der TFSBeschreibungen der DELIS-Worterbucher oben in den Abschnitten 5.2.2 und 5.2.3 eingefuhrt wurde. Beispiele hierfur nden sich in den Abbildungen 5.11, 5.12 und 5.14, Seite
176.
Grundlage des kontrastiven Vergleichs monolingualer Beschreibungen in DELIS ist
die Annahme, da die durch Frame Semantics de nierten Rollenkonstellationen uber die
behandelten Sprachen hinweg generalisiert werden konnen. Wie oben in Abschnitt 4.2.3
angedeutet, wird von einer bestimmten Rollenkonstellation ausgegangen, und es werden
lexikalische Realisierungen des durch diese Rollenkonstellation beschriebenen Frame-Typs
aus verschiedenen Sprachen gesucht. In Abschnitt 4.2.3 wurden einige der in [Schwenger
1995] aus deskriptiver Sicht behandelten Beispiele angegeben (vgl. Tabellen 4.7 und 4.8).
Im Folgenden werden einige Details der kontrastiven Anwendung der DELIS-TFSWorterbuchfragmente beschrieben. Auf eine Darstellung des Fragments folgt die Beschreibung der Modellierung von A quivalenzbedingungen in TFS, sowie der Abdeckung der
Dorr'schen Divergenztypen. Abschlieend wird anhand von einigen Beispielen der Nutzen
des automatischen kontrastiven Abgleichs der DELIS-Fragmente fur die Lexikographie
diskutiert.

6.5.1 Kontrastives Fragment


Die Beispiele fur die kontrastive Anwendung von DELIS, die im Folgenden diskutiert
werden, stammen aus dem Bereich der Wahrnehmungsverben. Die in Kapitel 4 detailliert
dargestellte Klassi kation von Wahrnehmungsverben wird fur samtliche Sprachen ubernommen. Die unten in Tabelle 6.7 zusammengestellten Verblesarten sind in dieser Form
klassi ziert und formal modelliert worden. Die Tabelle enthalt allgemeine Perzeptionsverben, sowie jeweils Verben aus den Klassen perception, attention und judging. Die
feinere Subklassi zierung, die in Kapitel 4 anhand des Franzosischen diskutiert worden
ist, wurde sprachspezi sch fur die anderen Sprachen ebenfalls realisiert, ist jedoch in der
Tabelle der U bersichtlichkeit halber nicht dargestellt.

Sprache !
EN
Klasse #
general perception notice
allgemeine Verben

NL

FR

IT

DK

hear

horen

auditory-att
auditory-jud

listen
sound

luisteren
klinken

ecouter
{

visual-perc
visual-att

zien
kijken

visual-jud
olfactory-perc

see
look
watch
look
smell

olfactory-att
olfactory-jud

smell
smell

ruiken
ruiken

voir
observer
regarder
{
respirer
sentir
respirer
sentir

percepire
sentire
accorgersi
udire
sentire
ascoltare
sembrare
(suonare =
negat. eval)
vedere
guardare

bemrke

auditory-perc

percevoir
apercevoir
s'apercevoir
entendre

gustative-perc

taste

gustative-att

taste

proeven

gouter

gustative-jud
tactile-perc
tactile-att

taste
feel
feel

smaken
foelen

tactile-jud

feel

{
sentir
toucher
t^ater
{

ruiken

sembrare
sentire

hre
lytte
lyde
se
se pa
kigge
se ... ud
lugte

annusare
avere...
(ADJ) odore
sentire
(il sapore di...)
gustare,
assaporare,
assaggiare
sapere di
sentire
toccare

lugte til
lugte

fles

smage
smage pa
smage
fle, mrke
fle pa

Tabelle 6.7: Das Fragment der Wahrnehmungsverben aus DELIS, in funf Sprachen

6.5.2 Die TFS-Kodierung des kontrastiven Vergleichs von Frame


Semantics-Beschreibungen

Informell wurden die Grundprinzipien des kontrastiven Vergleichs von Frame Semantics-Worterbucheintragen bereits oben in Abschnitt 4.2.3 angedeutet. Wenn man die Rollenkonstellation aus Frame Semantics als gemeinsame partielle lexikalisch-semantische
Beschreibung von aquivalenten Verblesarten verschiedener Sprachen akzeptiert, so lassen sich die folgenden Bedingungen fur die Identi kation von A quivalenten in parallelen
Frame Semantics-Fragmenten de nieren:
1. Zwei Lesarten sind A quivalentkandidaten, wenn sie identische Rollenkonstellationen
haben; sie gehoren dann zum selben Frame-Typ.
2. Liegt eine Klassi kation nach Ereignistypen vor, so sind zwei Verblesarten von verschiedenen Sprachen A quivalentkandidaten, wenn sie identischen Ereignistypen zugehoren.
3. Sind Sortenrestriktionen uber Rollen annotiert, so sind zwei Verblesarten verschiedener Sprachen A quivalentkandidaten, wenn die Sortenrestriktionen fur die relevanten

Rollen in einer Subsumtionsbeziehung stehen oder identisch sind.


Die Bedingungen sind ausschlielich auf der partiellen semantischen Beschreibung formuliert. Hieraus folgt die Unabhangigkeit der kontrastiven Vergleichs-Verfahren von syntaktischen Beschreibungen der A quivalentkandidaten und die Tatsache, da syntaktische
Divergenzen in diesem Ansatz trivialerweise behandelt werden konnen.
Die TFS-Kodierung des kontrastiven Vergleichs beruht auf der Anwendung der Adhoc-Abfrage (vgl. Kapitel 5). In einer prototypischen TFS-Modellierung wurde statt der
hierarchischen Eintragsstruktur der DELIS-Worterbucher, wie sie in Abbildung 4.1, auf
Seite 100 dargestellt ist, die fur den Export fur lexikographische Anwendungen de nierte
ache Rekodierung der TFS-Eintrage benutzt, fur welche Beispiele in Statement 5.9 auf
Seite 163 angegeben sind. Ein Beispiel fur ein \Bilingual Sign", welches aus den Daten fur
Niederlandisch und Italienisch extrahiert wird, ist in Abbildung 6.8 im oben erwahnten
achen Format angegeben. Es handelt sich dabei um aquivalente Lesarten von IT vedere
und NL zien, wie sie durch die Satze 97 und 98 illustriert werden.
(97) Hij ziet aan Willy dat er iets aan de hand is.
(98)

Si vede da questo che non e facile vendere questo prodotto.

bilingual-sign-nl-it
[L1:lgr-nl7
[1:exper-n,
2:np,
3:"zien",
4:p-actual-ent,
5:obj-pp[PREP:aan],
6:p-interpretation,
7:dat-cl[COMPLT:dat],
8:"Hij ziet aan..., dat...",
9:vis],
L2:lgr-it7
[1:exper-n,
2:np,
3:"vedere",
4:p-actual-ent,
5:obj-pp[PREP:da],
6:p-interpretation,
7:che-cl[COMPLT:that-compl],
8:"Si vede da questo che non e facile vendere questo prodotto.",
9:vis]].

Abbildung 6.8: \Bilingual Sign" NL-IT: aquivalente Lesarten von NL zien und IT vedere
(vgl. Satze 97 und 98) in TFS
In Abbildung 6.8 ist eine Instanz des niederlandischen-italienischen Vergleichs dargestellt.
Sie wird durch Ad-hoc-Abfrage erzeugt, vollig analog zu den Ergebnissen der monolingualen Ad-hoc-Abfrage, die in Abschnitt 5.1.1, auf Seite 146 dargestellt sind. Gegenuber der
oben informell angegebenen De nition der A quivalenzbedingungen gibt es eine kleinere
A nderung: statt eines Vergleichs auf der Grundlage von Sortenrestriktionen wird hier, zur

Vereinfachung, ein Vergleich auf der Ebene der Phrasenstrukturtypen (fur das erste Argument) durchgefuhrt. Die De nition des niederlandisch-italienischen Vergleichspradikats
bilingual-sign-nl-it ist in Statement 6.1 angegeben. Dort wird die Identit
at der Rollen uber Koreferenzmarkierungen gefordert (z.B. #first-fe, oder #secd-fe), ebenso die
Identitat der modality-Angabe, stellvertretend fur eine Ereignisklassi kation (#modality
= mod).
Fur das erste Argument wird Identitat der Phrasentypen gefordert (#first-pt). Analoge Restriktionen, ggf. durch Subsumtionstests uber eine multilinguale Klassi kation
der Phrasenstrukturtypen, konnen fur die anderen Argumente ebenfalls eingefuhrt werden, damit beispielsweise Nominalgruppen und Prapositionalgruppen, d.h. Realisierungen
von Entitaten, aufeinander abgebildet werden, bzw. satzformige oder In nitivkonstruktionen als Realisierungen von Sachverhalten oder Ereignissen. Andererseits mochte man
verhindern, da Lesarten als aquivalent erachtet werden, bei denen die Quellsprache beispielsweise eine Entitat als Argument fordert, wahrend die Zielsprache einen Sachverhalt
verlangt59.
(6.1) bilingual-sign-nl-it [L1: [1: #first-fe = role,
2:
4:
6:
9:
[L2: [1:
2:
4:
6:
9:

#first-pt,
#secd-fe = role,
#thrd-fe = role,
#modality = mod],
#first-fe,
#first-pt,
#secd-fe,
#thrd-fe,
#modality]].

6.5.3 Die Behandlung von kontrastiven Problemen im DELIS-Fragment

Die A quivalentzuordnungen auf der Grundlage von Rollenkonstellationen sind weitestgehend von der syntaktischen Realisierung der Rollen unabhangig (vgl. die obige Diskussion). Beispielsweise kann der italienische Pseudo-Relativsatz (vgl. Satz 99 nicht strukturisomorph ins Englische ubersetzt werden, weil die Pseudo-Relativ-Konstruktion nur in
den romanischen Sprachen auftritt60. Den Satzen 99 und 100 liegt dieselbe Rollenkonstellation (vgl. 101) zugrunde. Aus diesem Grunde kann die Abbildung problemlos erfolgen,
und die einzelsprachlichen \Linking-Rules" sorgen dafur, da der Pseudo-Relativsatz und
seine U bersetzung durch einen In nitiv korrekt einander zugeordnet werden.
(99) IT: La guardavano che si allontanava
(100) EN: They watched her walk away
59 Die Losung, einen Subsumtionstest uber eine Phrasenstruktur-Klassi kation durchzufuhren, hangt
mit der fur die hier beschriebenen Experimente verwendeten Version der einsprachigen Kodierungen
zusammen. Das Verfahren ist weniger elegant, aber es ist mit einem Vergleich auf der Grundlage von
Sortenrestriktionen aquivalent; eine Reformulierung der Abbildungen in TFS, in der Weise, da die
Sortenrestriktionen als A quivalenzkriterien benutzt werden konnen, ist in Vorbereitung.
60 Im Franzosischen bevorzugt mit pronominalem \Pseudo-Antezedens": vgl. FR je la vois qui arrive,
besser als FR ? Je vois la lle qui arrive in gleicher Bedeutung. Fur den zweiten Beispielsatz ist
die Interpretation als normaler Relativsatz nahezu zwingend; wahrend fur die Pronominalversion die
Pseudo-Relativsatz-Interpretation notig ist.

(101)

guardare pseudo-rel: [PERC-ACTUAL-event]


[EXP-I] watch v-inf: [PERC-ACTUAL-event]
Von den Divergenztypen, die oben in Abschnitt 6.2, Seite 194, de niert worden sind, werden diejenigen Falle trivialerweise abgedeckt, die die syntagmatische Umgebung des zu
ubersetzenden Lexems betre en (vgl. die oben illustrierte Unabhangigkeit von der syntaktischen Realisierung). Die Behandlung von thematischen Divergenzen stellt ebenfalls
kein Problem dar61 .
Zur Behandlung von Divergenzen, die das Lexem selbst bzw. das Lexem und seine syntagmatische Umgebung betre en (z.B. kategoriale Divergenz, Head Switching-Phanomene
etc.) mute die Frame Semantics-Beschreibung auf komplexe Strukturen erweitert werden.
Fur Nomen-Verb-Kollokationen gibt es hierfur bereits Vorschlage, jedoch noch keine ausgearbeitete TFS-Modellierung im Frame Semantics-Rahmen, die Kollokationen und VerbBeschreibungen zusammenbringen wurde62 . Aus diesem Grunde werden die franzosischen
Mehrwort-A quivalente von englischen Lesarten der judging-Klasse, wie sie in Tabelle
4.9, Seite 111 angegeben sind, von den bisher implementierten Verfahren nicht erfat. Sie
werden allerdings automatisch als Problemfalle identi ziert und dem Lexikographen zur
weiteren Bearbeitung bereitgestellt.
Die Abfrage eines zweisprachigen Worterbuchs mu es erlauben, zielsprachliche und
quellsprachliche Constraints zu berucksichtigen. Wegen der vollstandigen Modularisierung
der Worterbucher (die A quivalenz einzelner Lesarten ist nirgends explizit festgeschrieben,
sondern wird jeweils durch Evaluierung von Ad-hoc-Anfragen berechnet) gibt es keinerlei
Einschrankungen bei der Formulierung von Constraints fur die zwei- oder mehrsprachige
Abfrage. Fur ein maschinelles U bersetzungssystem ist diese Moglichkeit besonders wichtig,
da Probleme der Einbindung von A quivalentkandidaten in zielsprachliche Kontexte auf
diese Weise elegant und modular behandelt werden konnen63 .
In Abbildung 6.9 ist eines der Resultate einer Anfrage wiedergegeben, bei der englische
A quivalente fur diejenige Lesart von IT guardare gesucht werden, welche ein durch In nitiv realisiertes percept-actual hat; eine Losung ist eine isomorph konstruierte Lesart
von EN [to] watch.
Der kontrastive Vergleich ist nicht auf zwei Sprachen beschrankt. Man kann analog zu
bilingualen Anfragen auch mehrsprachige Anfragen stellen. Da die durch die Kombination der einzelsprachlichen Worterbucher entstandene mehrsprachige Datensammlung im
strengen Sinne nicht-direktional ist, gibt es keine Beschrankungen hinsichtlich der Kombination einzelsprachlicher Beschreibungen64 . In Abbildung 6.10 ist eine Beispielanfrage
dargestellt, in der Niederlandisch, Englisch und Italienisch miteinander verglichen werden. In diesem Fall wurde nach transitiven Verben der attention-Klasse gefragt; fur den
[EXP-I]

61 Allerdings mu sichergestellt sein, da die Listenkodierung der Rollenkonstellationen, die in der TFSModellierung der Frame Semantics-Beschreibungen verwendet wird, als Menge reinterpretiert werden
kann, d.h. unabhangig von der Reihenfolge der Listenelemente. Die De nition der Abbildungen, wie
sie etwa im Statement 6.1 angegeben ist (\ ache" Rekodierung und feste Reihenfolge der Argumente)
erlaubt dies naturlich nicht. Eine entsprechende Kodierung in TFS ist jedoch moglich.
62 Vgl. aber [Kuhn 1994], im Rahmen von HPSG.
63 Die in Abschnitt 3.1.4.1 diskutierten und in Abbildung 3.12, Seite 87 skizzierten Probleme konnen
somit auf elegante Weise gelost werden.
64 Die Tatsache, da in den TFS-Beschreibungen die einzelsprachlichen Teilstrukturen nacheinander
angeordnet sind, hangt mit der hierdurch vereinfachten Kodierung zusammen. Man konnte sich genausogut eine Kodierung durch Mengen vorstellen, die die Tatsache starker unterstreichen wurde, da
die Zuordnungen nicht-direktional und ungeordnet sind.

?bil-en-it[L2: [3:"guardare", 5: infinite]].


; KB bilicheck(1):
bil-en-it
[L1:lgr-en5
[1:exper-i,
2:np,
3:"watch",
4:p-actual-prp,
5:vp,
6:"They watched her walk away from them.",
7:vis],
L2:lgr-it5
[1:exper-i,
2:np,
3:"guardare",
4:p-actual-prp,
5:vp,
6:"guarda le alghe ondeggiare;",
7:vis]].

Abbildung 6.9: Kontrastive Anwendung von DELIS: EN A quivalent zu IT guardare +


INF
Bereich der gustativen und der visuellen Wahrnehmungsmodalitat ergeben sich die in 6.10
angegebenen Zuordnungen von Verben.

6.5.4 Lexikographische Anwendung


In Analogie zu der Exportschnittstelle fur Lexikographen, die in Abschnitt 5.2.2 und 5.2.3
beschrieben wurde, wurde eine Lexikographen-Schnittstelle fur die kontrastiven Beschreibungen entwickelt. Sie verwendet das in Abbildung 5.11, Seite 162 dargestellte Format,
d.h. tabellarische U bersichten uber die Lesarten, die aus der TFS-Wissensbasis extrahiert worden sind. Die kontrastive Anwendung ist in die prototypisch implementierte
Lexikographen-Schnittstelle integriert worden. Im Folgenden wird ein Anwendungsbeispiel diskutiert, welches italienisch/niederlandische kontrastive Untersuchungen zum Gegenstand hat.
Bei der praktischen Arbeit mu der Lexikograph zunachst die zu vergleichenden Sprachen bestimmen, sowie die Metasprache, die in den tabellarischen U bersichten uber die
Lesarten verwendet werden soll.
Die Lexikographen-Schnittstelle produziert fur jedes Sprachpaar vier tabellarische Zusammenstellungen; jeweils eine fur die automatisch identi zierten A quivalentkandidaten
pro Sprachrichtung (der Unterschied liegt lediglich in der alphabetischen Sortierung nach
dem Lemma der einen bzw. der anderen Sprache), sowie Zusammenstellungen derjenigen
Verben der einen Sprache, fur die in der anderen keine A quivalente auf automatischem
Wege zugewiesen werden konnten, und umgekehrt.
(6.2) [ESPERIENTE intenzionale] guardare se [SCOPO della percezione]
[example: "non restera' che guardare se il prezzo del passaggio sara' giusto."]
=>

? tri-nl-en-it
; KB bilicheck(1):
[L1:lgr-nl5
[1:exper-i,
2:np,
3:"proeven",
4:p-actual-ent,
5:np,
6:"Wijn zorgvuldig in de mond proeven.",
7:gus],
L2:lgr-en5
[1:exper-i,
2:np,
3:"taste",
4:p-actual-ent,
5:np,
6:"Lucille tasted the soup.",
7:gus],
L3:lgr-it5
[1:exper-i,
2:np,
3:"gustare",
4:p-actual-ent,
5:np,
6:i gusta cioccolato.",
7:gus]].
; KB bilicheck(2):
tri-nl-en-it
[L1:lgr-nl5
[1:exper-i,
2:np,
3:"kijken",
4:p-actual-ent,
5:obj-pp[PREP:naar],
6:"Hij kijkt naar het water.",
7:vis],
L2:lgr-en5
[1:exper-i,
2:np,
3:"watch",
4:p-actual-ent,
5:np,
6:"I watch him till he disappears....",
7:vis],
L3:lgr-it5
[1:exper-i,
2:np,
3:"guardare",
4:p-actual-ent,
5:np,
6:"M. guarda il muro da tutte le parti.",
7:vis]].

Abbildung 6.10: Mehrsprachige Abfrage der DELIS-Datensammlung

[actieve WAARNEMER] kijken indir. vraag: [intentioneel WAARNEMINGSOBJEKT]


[example: "Hij kijkt of er post is."]

(6.3)
(6.4)
(6.5)

[ESPERIENTE intenzionale]
vedere se
[SCOPO della percezione]
[example: "per vedere se laggiu' ci fosse ancora qualche segno."]
=>
[actieve WAARNEMER] kijken indir. vraag:
[intentioneel WAARNEMINGSOBJEKT]
[example: "Hij kijkt of er post is."]
[actieve WAARNEMER]
luisteren indir. vraag: [intentioneel WAARNEMINGSOBJEKT]
[example: "Hij luistert wie er zo'n lawaai maakt."]
=>
[ESPERIENTE intenzionale] sentire se [SCOPO della percezione]
[example: "va tu dal babbo e senti se ha bisogno di qualcosa."]
[actieve WAARNEMER]
luisteren naar
[WAARNEMINGSOBJEKT:entiteit]
[example: "Hij luistert naar de muziek."]
=>
[ESPERIENTE intenzionale] ascoltare [sorgente/stimolo PERCEPITI]
[example: "l'uomo ascolta dei suoni."]

Anhand des Vergleichs von Italienisch und Niederlandisch wird dies im Folgenden exemplarisch dargestellt. Dabei sind die Eintrage 6.2 und 6.3 willkurlich herausgegri ene
Beispiele fur italienisch ! niederlandische Zuordnungen (in diesem Fall IT guardare und
IT vedere als quellsprachliche Verben). Umgekehrt sind 6.4 und 6.5 Beispiele fur niederlandisch ! italienische Abbildungen (zwei Lesarten von NL luisteren).
In Abbildung 6.11 und 6.12 sind samtliche italienischen Lesarten der TFS-Wissensbasis
dargestellt, die keine niederlandischen A quivalente haben, und umgekehrt in Abbildung
6.12 alle niederlandischen Lesarten, fur die in der TFS-Modellierung keine italienischen
A quivalente gefunden werden.
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE

intenzionale]
intenzionale]
intenzionale]
intenzionale]
non-intenzionale]
intenzionale]

ascoltare
ascoltare
guardare
guardare
sentire
toccare

infin.:
pseudo-rel:
infin.:
pseudo-rel:
infin.:

[evento PERCEPITO]
[evento PERCEPITO]
[evento PERCEPITO]
[evento PERCEPITO]
[evento PERCEPITO]
[sorgente/stimolo PERCEPITI]

Abbildung 6.11: Kontrastive Suche IT ! NL: IT Verben ohne direktes NL A quivalent


Die U bersicht zeigt, da fur die attention-Lesarten von IT ascoltare, guardare, die In nitive oder Pseudo-Relativsatz-Konstruktionen nehmen, keine niederlandischen A quivalente
zur Verfugung stehen. Das Niederlandische hat o enbar nur In nitivkonstruktionen bei
perception-Lesarten, nicht bei attention: NL luisteren erlaubt, wie EN [to] look, keine
Ereignisse als percept.
Die Tabelle der niederlandischen Lesarten ohne italienische A quivalente ist umfangreicher aber auch interessanter. Sie enthalt mit Ausnahme von Belegen fur NL horen
und ruiken nahezu ausschlielich judging-Lesarten. Im Italienischen gibt es mit Ausnahme von suonare keine Wahrnehmungsverben mit judging-Lesarten, die zu den in
den germanischen Sprachen und im Englischen vorhandenen Pradikativkonstruktionen
isomorph waren. Es gibt nur allgemeine (nicht der Wahrnehmung zuzuordnende) VerbKonstruktionen, die die fur judging-Lesarten typischen Rollenkonstellationen aufweisen
wurden. In der Regel mussen die germanischen judging-Lesarten durch Kollokationen
vom Typ \avere un odore adj " ubersetzt werden.
<

>

Die Zusammenstellung der niederlandischen Lesarten ohne italienische A quivalente


zeigt diesen Sachverhalt sehr deutlich. Dies betri t sowohl zweistellige, als auch dreistellige Lesarten (beispielsweise mit NL zien). Waren Kollokationen vom Typ IT avere un
odore ... (ADJ) bereits in der TFS-Datenbasis erfat und nach Frame Semantics kodiert,
so wurden fur die hier als nicht-abbildbar beschriebenen Falle U bersetzungsvorschlage
durch Kollokationen bereitgestellt.
[actieve WAARNEMER]
[passieve WAARNEMER]
[actieve WAARNEMER]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[passieve WAARNEMER]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]
[WAARNEMINGSOBJEKT:entiteit]

horen
horen indir. vraag:
kijken voor
klinken alsof + bijzin
klinken bv. nwg.
klinken gesteldheid/adv: als
proeven bv. nwg.
proeven gesteldheid/adv: als
proeven naar
ruiken
ruiken bv. nwg.
ruiken indir. vraag:
ruiken naar
smaken alsof + bijzin
smaken bv. nwg.
smaken gesteldheid/adv: als
smaken naar
stinken bv. nwg.
stinken naar

[WAARNEMINGSOBJEKT:menselijk]
[WAARNEMINGSOBJEKT:propositie]
[intentioneel WAARNEMINGSOBJEKT]
[inferentieel OORDEEL]
[inferentieel OORDEEL]
[evaluatief OORDEEL]
[objectief OORDEEL]
[objectief OORDEEL]
[objectief OORDEEL]
[evaluatief OORDEEL]
[WAARNEMINGSOBJEKT:propositie]
[objectief OORDEEL]
[inferentieel OORDEEL]
[evaluatief OORDEEL]
[objectief OORDEEL]
[objectief OORDEEL]
[evaluatief OORDEEL]
[objectief OORDEEL]

[actieve WAARNEMER] zien [WAARNEMINGSOBJEKT:entiteit]


gesteldheid/adv: als [evaluatief OORDEEL]
[actieve WAARNEMER] zien [WAARNEMINGSOBJEKT:menselijk]
gesteldheid/adv: als [evaluatief OORDEEL]
[actieve WAARNEMER] zien dat [WAARNEMINGSOBJEKT:propositie]
gesteldheid/adv: als [evaluatief OORDEEL]
[passieve WAARNEMER] zien hoe (= a.c.i.) [WAARNEMINGSOBJEKT:propositie]
[passieve WAARNEMER] zien indir. vraag: [WAARNEMINGSOBJEKT:propositie]

Abbildung 6.12: Kontrastive Suche NL ! IT: NL Verben ohne direktes IT A quivalent


Der Lexikograph hat nicht nur die Moglichkeit, sich die hier exemplarisch gezeigten tabellarischen U bersichten generieren zu lassen, sondern er kann auerdem die fur ihn geeignete Metasprache wahlen. Damit die Frame Semantics-typischen Rollenbezeichnungen
fur Lexikographen etwas sprechender werden, wurden optionale \Alias-Namen" in den
einzelnen Sprachen eingefuhrt, welche in DELIS benutzt werden. In den Abbildungen
oben entspricht die Metasprache immer der Objektsprache. Bei der Erstellung der vier
verschiedenen tabellarischen U bersichten kann der Lexikograph jedoch die Metasprache
wahlen. Beispielsweise kann die italienisch ! niederlandische Abbildung auch mit englischer oder franzosischer Metasprache oder einheitlich mit Niederlandisch (der Zielsprache
der Abbildung) als Metasprache geliefert werden. Diese Moglichkeit erleichtert es den
Lexikographen, die etwas ungewohnte Terminologie zu beherrschen. Auerdem kann der
Lexikograph seine eigenen \Alias-Namen" de nieren und verwenden.
Die hier beschriebene Anwendung hat eine Reihe von Vorteilen gegenuber der traditionellen Arbeitsmethode bei der Erstellung zweisprachiger Worterbucher. In der Regel wird bisher ein \Framework" in der Quellsprache erarbeitet, welches dann an den
Zielsprach-Herausgeber des Worterbuchs weitergeleitet und von ihm mit A quivalenten

und mit zielsprach-spezi schen Erganzungen versehen wird. Mehrere Iterationen sind in
der Regel notwendig, bis das Framework so modi ziert ist, da es die Anforderungen von
Quell- und Zielsprache in geeigneter Weise erfullt.
Die Herangehensweise von DELIS erlaubt es, ahnlich wie bei der Kombination der Van
Dale-Worterbucher, eine nicht-direktionale Datensammlung anzulegen, die im Falle von
DELIS die Zuordnungen von Verben von Quell- und Zielsprache enthalt, die aufgrund
der Frame Semantics-Beschreibung als aquivalent identi ziert werden. Durch die Bereitstellung zusatzlicher Listen von nicht-abbildbaren Verblesarten der beiden Sprachen wird
den Worterbuchherausgebern gleichzeitig deutlich gemacht, an welcher Stelle weitere manuelle Arbeit notwendig ist. In vielen Fallen stellt sich heraus, da die nicht-abbildbaren
Lesarten durch Paraphrasen, durch kategoriale oder lexikalische Divergenzen ubersetzt
werden mussen, oder da es sich um Mismatches handelt.
Die hier beschriebenen Verfahren nehmen den Worterbucherstellern die Routinearbeit
der Zuordnung von Verblesarten ab. Auerdem wird sichergestellt, da nicht nur eine
unstrukturierte Liste von verbalen A quivalenten gegeben wird, sondern da gleichzeitig
auf die jeweils relevante Lesart, im Sinne der Rollenkonstellation, verwiesen wird. Es wird
also nicht nur eine A quivalentliste erzeugt, sondern eine strukturierte und semantisch
klassi zierte Liste von A quivalentvorschlagen.

Kapitel 7
Zusammenfassungen
7.1 Deutsche Zusammenfassung
In diesem Buch werden Vorschlage zur Strukturierung von einsprachigen und zweisprachigen Worterbuchern gemacht. Dabei werden wiederverwendbare multifunktionale Ressourcen angestrebt, d.h. solche, aus denen (z.B. mit Hilfe von Exportroutinen) Informationen
fur Worterbucheintrage im Format verschiedener Anwendungen abgeleitet werden konnen.
Die Strukturierungsvorschlage werden in zwei Schritten entwickelt: zunachst fur monolinguale, dann fur kontrastive Worterbucher fur maschinelle U bersetzung. Die Zielsetzung
dabei ist, die separat (d.h. nicht notwendigerweise als Komponenten eines maschinellen
U bersetzungssystems) entworfenen monolingualen Worterbucher zu kombinieren, um sie
dann als Informationsquelle fur kontrastive Beschreibungen fur die maschinelle U bersetzung zu benutzen. Die angestrebte Multifunktionalitat hat also mehrere Aspekte: Nutzbarkeit der monolingualen Worterbucher fur \menschliche Benutzer" (z.B. durch Export
in ein geeignetes Prasentationsformat) und fur NLP-Systeme, Kombinierbarkeit der monolingualen Beschreibungen zu kontrastiven Worterbuchern und schlielich Nutzung einund derselben kontrastiven Beschreibung fur transfer-basierte und fur interlingua-basierte
maschinelle U bersetzung.
Eine Grundbedingung fur die Kombinierbarkeit der einzelsprachlichen Beschreibungen
ist die Entwicklung paralleler Ressourcen: die Beschreibungen der Einzelsprachen mussen
auf demselben Ansatz und auf einem gemeinsamen Inventar linguistischer Beschreibungsmittel fur alle behandelten Sprachen beruhen; naturlich mu hierbei den einzelsprachlichen Spezi ka Rechnung getragen werden.
Die Beispielfragmente stammen aus dem Bereich der Verben der sinnlichen Wahrnehmung (Franzosisch, Englisch, Niederlandisch), und { zur U berprufung der Generalisierbarkeit des Ansatzes { aus einem weiteren lexikalisch-semantischen Feld, dem der
sprachlichen Kommunikation (Italienisch). Die Verben werden syntaktisch und semantisch beschrieben. Die syntaktische Beschreibung folgt den Grundlinien von LexikalischFunktionaler Grammatik (LFG) und Head-Driven Phrase Structure Grammar (HPSG);
aus den hier erarbeiteten Worterbuchfragmenten konnten Eintrage fur diese beiden linguistischen Theorien mittels Exportroutinen abgeleitet werden, da genug Information fur
beide Theorien explizit reprasentiert wird. Zur semantischen Beschreibung wird der von
Fillmore entwickelte Ansatz von Frame Semantics benutzt; Frame Semantics dient als
Beispielfall fur einen Ansatz der lexikalisch-semantischen Beschreibung, dessen Klassi zierungen durch die Formulierung von expliziten Abbildungen zwischen Semantik und
Syntax mindestens indirekt reinterpretierbar und damit wiederverwendbar gemacht werden. Gleichzeitig sind die hier formulierten Worterbuchfragmente wohl die ersten, in denen
eine formale Reprasentation von Frame-Semantics-Beschreibungen versucht wird.
Zur Kodierung der Worterbucher wird der Typed Feature Structure-Formalismus
(TFS) benutzt. Anhand der Darstellung seiner wichtigsten Eigenschaften werden die
Moglichkeiten diskutiert, die auf Constraint-Logik beruhende Formalismen fur die lexi-

kalische Modellierung, fur die Strukturierung von Worterbuchern und fur deren Abfrage
und Nutzung in NLP-Systemen bieten.
Wie oben angesprochen, erfolgt die De nition von Strukturierungsprinzipien fur multifunktionale Worterbucher in zwei Schritten: zunachst fur monolinguale, dann fur kontrastive Worterbucher. Fur die monolingualen Worterbucher werden die Architekturprinzipien zunachst als funktionale Spezi kation formuliert, dann bei der Modellierung von
Worterbuchausschnitten in TFS angewendet.
Zu den Grundprinzipien der vorgeschlagenen Worterbucharchitektur gehoren die Modularisierung der Worterbucher nach linguistischen Beschreibungsebenen, die Festlegung
separater hierarchischer Spezi kationen fur jede Ebene (die formal uberprufbar sind) und
die Verwendung eines relationalen Ansatzes zur Verbindung der Module. Die Kombination monolingualer Beschreibungen fur kontrastive Zwecke erfolgt dadurch, da die syntaktischen Klassi zierungen miteinander verbunden werden, wahrend die semantische Beschreibung als gemeinsame abstrakte Reprasentation der einzelsprach-spezi schen Phanomene benutzt wird. Das entspricht auch dem Grundgedanken von Frame Semantics: ein
Frame ist die Beschreibung einer Situation oder Szene und der an dieser Situation beteiligten Objekte, Individuen und Sachverhalte (Frame Elements); die einzelnen Sprachen
haben verschiedene Verfahren, um auf die durch ein Frame beschriebenen Situationen
sprachlich zu referieren; der Ansatz steht damit einem interlingua-basierten U bersetzungsmodell nahe, ohne allerdings die vollstandige Modellierung des Inhalts von A uerungen
in einer abstrakten Reprasentation anzustreben. Die einzelsprach-spezi schen Realisierungsverfahren werden separat beschrieben und die monolingualen Worterbuchfragmente
miteinander verbunden.
Wenn die monolingualen syntaktischen Klassi zierungen kombiniert werden, konnen
die Kombinationsresultate wiederum klassi ziert werden. Dies ergibt die hier nur kurz
phanomenologisch beschriebenen kontrastiven Klassen. Da die kontrastiven Klassen vordergrundig nur als ein technisches Hilfsmittel zur Strukturierung zweisprachiger Worterbucher interpretiert werden konnten, mu untersucht werden, inwiefern diese kontrastiven
Klassi zierungen Generalisierungen ausdrucken, bzw. uberhaupt eine Relevanz fur die homogene Beschreibung kontrastiver Probleme im Lexikon haben.
Die vorgeschlagenen konstrastiven Klassen decken die in der relevanten Literatur behandelten Phanomene ab (allerdings nur fur einen Teilbereich des Lexikons: die Beschreibung der U bersetzung von Verben und ihrer syntagmatischen Umgebung); auerdem ist
die vorgeschlagene kontrastive Klassi zierung genereller als fruhere Klassi zierungsversuche aus der Forschung zur maschinellen U bersetzung, und sie kommt mit weniger Parametern aus. Ihre Grundlagen werden ohnehin fur die monolinguale Klassi kation benotigt:
(1) die Modularisierung der Lexikoneintrage nach den linguistischen Beschreibungsebenen und (2) die Frage, welche linguistischen Objekte von Quell- und Zielsprache sich bei
der U bersetzung unterscheiden: das Lemma selbst, seine subkategorisierten Erganzungen,
oder anderes Material in der syntagmatischen Umgebung des Lemmas.
Fur beide Worterbuchtypen, monolinguale und kontrastive Lexika, werden gemeinsame Architekturprinzipien de niert; ihre Realisierbarkeit in TFS wird uberpruft und
diskutiert, und Beispiele fur monolinguale Worterbuchfragmente werden modelliert und
diskutiert. Nachfolgend werden diese Prinzipien kurz zusammengefat:
1. Worterbucher mussen als Spezi kationen angelegt werden, die die wohlgeformten
lexikalischen Objekte einer Domane beschreiben und nur diese (vgl. die De nition

von Spezi kationen in den Formalen Sprachen). Ein constraint-basierter Formalismus erlaubt sowohl die De nition formaler lexikalischer Spezi kationen (welche
Attribute sind fur lexikalische Objekte eines bestimmten Typs de niert? Welche
Werte kann ein Attribut haben?), als auch die automatische U berprufung einzelner
lexikalischer Beschreibungen auf U bereinstimmung mit der Spezi kation. Dadurch
wird die Konsistenz der lexikalischen Beschreibungen verbessert, und es ero nen
sich Moglichkeiten fur die Entwicklung von automatischen Werkzeugen fur die Konsistenzkontrolle, bei interaktiver und automatischer lexikalischer Akquisition und
bei A nderungen der Spezi kation und der daraus resultierenden Umklassi zierung
von lexikalischem Material.
2. Lexikalische Spezi kationen sollten modular angelegt sein. Es wird eine Modularisierung auf mehreren Ebenen verwendet:
 die einzelnen monolingualen Worterb
ucher sind gleichberechtigte Module des
kontrastiven Worterbuchs;
 jede monolinguale Beschreibung ist aus Modulen aufgebaut, die Spezi kationen
fur die einzelnen linguistischen Beschreibungsebenen sind. Die ebenenspezi schen Module werden durch relationale Constraints miteinander verbunden;
 jede ebenenspezi sche Beschreibung besteht aus Modulen:
{ dem Inventar der Beschreibungsmittel (Vokabular),
{ der De nition der Kombinationsmoglichkeiten der einzelnen Beschreibungsbausteine (lexikalische Klassen),
{ der De nition einzelner lexikalischer Instanzen (Worterbucheintrage) auf
der Grundlage der Klassen.
3. Aus der Modularitat ergeben sich eine Reihe von Eigenschaften der lexikalischen
Spezi kationen:
 Die angestrebte Multifunktionalitat wird dadurch unterst
utzt, da Exportroutinen an den De nitionen der Beschreibungsmittel, nicht an den lexikalischen
Klassen oder gar den Instanzen festgemacht werden. Worterbuch und Exportverfahren werden damit robuster gegenuber A nderungen: der Export in verschiedene anwendungsspezi sche Formate ist von A nderungen der lexikalischen
Spezi kation nicht betro en, solange nicht neue Beschreibungsmittel eingefuhrt
werden (z.B. neue semantische Rollen oder grammatische Funktionen). Es werden Beispiele fur verschiedene Exportanwendungen diskutiert.
 Die einzelnen Module sind durch relationale Constraints untereinander verbunden. Damit wird sichergestellt, da der Zugri auf lexikalische Information ad
hoc mit beliebigen unterspezi zierten Teilstrukturen erfolgen kann. Fur die lexikographische Anwendung bedeutet die Moglichkeit der Ad-hoc-Abfrage (die
alle constraint-basierten Formalismen kennzeichnet), da keine Beschreibungsebene Prioritat uber die anderen hat: semasiologische, onomasiologische oder in
anderer Weise strukturierte Worterbucher konnen so aus einer einzigen Quelle
abgeleitet werden; in analoger Weise sind in einem zweisprachen Worterbuch
fur die maschinelle U bersetzung Constraints von allen Ebenen verfugbar, die
die A quivalentwahl steuern konnen.

Da die Spezi kationen fur die einzelnen Ebenen untereinander explizit verbunden sind, \dokumentieren sie einander": es ist notorisch schwierig, unter
Linguisten Einigkeit uber die Kriterien zu erzielen, nach denen lexikalische
Einheiten semantisch beschrieben werden sollen (die Tatsache, da kaum je
zwei Worterbucher dieselben Lesarten eines gegebenen Lexems unterscheiden,
belegt dies); dies betri t genauso Frame Semantics; durch die Verbindungen
zwischen der semantischen Beschreibung und den syntaktischen Beschreibungen wird sichergestellt, da die Frame Semantics-Klassi kationen anhand der
syntaktischen Beschreibungen transparent werden. Damit wird es leichter, die
Worterbucher zu reinterpretieren und wiederzuverwenden.
Die Benutzung von TFS als Spezi kationssprache im Lexikon ist noch neu, und die TFSSprache wurde ursprunglich nicht fur diesen Zweck gescha en. Eine Reihe methodologischer Punkte, die den Aufbau von TFS-Worterbuchern betre en, werden deswegen diskutiert. Dabei stellt sich heraus, da zum Teil die Klassi zierung von Beschreibungsmitteln
(z.B. Rollen) auf die Klassi zierung der lexikalischen Objekte (d.h. beispielsweise die Verbklassen) abgebildet wird; diese leichte Redundanz ist der Preis, den man fur die starke
Modularisierung bezahlen mu.
Auerdem kann man sich fragen, ob es sinnvoll ist, eine einzige, tiefe, ggf. sehr komplizierte Hierarchie zu spezi zieren. Idealerweise wurde man sich wunschen, da das Lexikonmodell durch Kreuzklassi kation verschiedener Teilhierarchien entstehen wurde; der
Lexikograph de niert eine Hierarchie, die die zu beschreibende Domane (z.B. Wahrnehmungsverben) nach einem einheitlichen, von ihm als zentral aufgefaten Kriterium (z.B.
Rollenkonstellationen a la Frame Semantics) strukturiert. Auerdem legt er Teilhierarchien fur weitere beschreibungsrelevante Kriterien (z.B. zusatzliche Attribute) an, die mit
der \Haupt-Hierarchie" kreuzklassi ziert werden. Die Realisierung eines solchen Modells
wird von der hier benutzten Version des TFS-Systems noch nicht vollstandig unterstutzt;
eine ahnliche Losung wurde simuliert.
Die Vorschlage fur die Worterbucharchitektur werden aus einer Anforderungsde nition
entwickelt. Sie geht auf eine Diskussion des Konzepts der multifunktionalen Worterbucher
und auf eine Auswertung von Erfahrungen aus der Lexikographie zuruck: die Probleme,
die bei der Analyse von gedruckten Worterbuchern im Hinblick auf deren Wiederverwendung im NLP-Kontext auftreten, sollen vermieden werden. Die Benutzung formaler
Spezi kationen scha t hier weitgehend Abhilfe. Auerdem wird von den Erfahrungen
der praktischen Lexikographie beim Entwurf zweisprachiger Worterbucher pro tiert. Ein
Vergleich des direktionalen Ansatzes (z.B. Kromann) mit dem nicht-direktionalen Ansatz (z.B. Verlag Van Dale) zeigt die Notwendigkeit einer detaillierten Beschreibung zielsprachlicher Constraints (Relevanz fur die A quivalentwahl), sowie einer gleichrangigen
Behandlung von Quell- und Zielsprache. Die Untersuchung der Van Dale-Verfahren zur
Wiederverwendung der zweisprachigen Worterbucher dieses Verlags unterstreicht die Bedeutung der Modularisierung der Beschreibungen: die Wiederverwendung funktioniert,
wo die Van Dale-Worterbucher modular aufgebaut sind. Sie funktioniert weniger gut, wo
die Modularitat nicht durchgehalten wird.


7.2 Resume Francais


Ce livre contient des propositions pour la structuration de dictionnaires monolingues et
bilingues. L'un des objectifs est de creer des dictionnaires multifonctionnels reutilisables,
c'est-a-dire des ressources lexicales dont on peut faire deriver (par exemple a l'aide de
routines d'exportation) des informations dans le format d'applications di erentes.
Ces propositions de structuration de dictionnaires ont ete developpees dans deux
etapes: d'abord la structuration de dictionnaires monolingues, puis de dictionnaires contrastifs, pour la traduction automatique. Le but, dans cette deuxieme etape, est de montrer comment des dictionnaires monolingues, developpes separement (c'est-a-dire non pas
a priori en tant que composantes d'un systeme de traduction automatique) peuvent ^etre
combines pour ainsi servir de sources d'information pour un systeme de traduction automatique.
Ainsi, la multifonctionalite visee a plusieurs aspects: d'une part l'utilisation des dictionnaires monolingues aussi bien pour des \humains" que pour des applications du traitement automatique des langues, ensuite la possibilite de combiner les di erentes descriptions monolingues pour en faire des dictionnaires contrastifs, et, en n, l'utilisation
d'une m^eme description contrastive aussi bien pour la traduction automatique basee sur
l'approche transfert que sur l'approche interlangue.
L'un des prerequis de la combinaison de dictionnaires monolingues en vue d'une description bilingue est que ces ressources monolingues soient paralleles: les fragments monolingues doivent reposer sur la m^eme approche descriptive et sur un inventaire de dispositifs
descriptifs commun, pour les langues traitees; il est evident que cet inventaire doit pouvoir ^etre etendu, la ou c'est necessaire, pour tenir compte de particularites des langues en
question.
Les fragments discutes a titre d'exemple, dans ce livre, couvrent les verbes de perception du francais, de l'anglais et du neerlandais. Pour evaluer les possibilites d'une
application plus ample de l'approche proposee ici pour la structuration de dictionnaires,
un autre domaine lexical a ete traite, et une autre langue a ete rajoutee: un fragment
des verbes de communication de l'italien est decrit egalement, selon les m^emes principes generaux, et dans le cadre de la m^eme approche. La description lexicale modelisee
dans tous ces fragments porte sur la syntaxe et la semantique lexicale des verbes. La
description syntaxique suit les principes de la Grammaire Lexicale Fonctionnelle (LFG)
et de Head-Driven-Phrase-Structure Grammar (HPSG). Les fragments de dictionnaires
developpes ici pourraient donc aussi servir de base pour la construction de dictionnaires
dans ces deux theories, puisque l'information lexicale disponible est susamment riche et
explicite pour toutes les deux.
La description semantique repose sur l'approche de Frame Semantics de Charles Fillmore. Frame Semantics est utilise ici en tant qu'exemple d'une approche semantique
lexicale dont les classi cations peuvent ^etre rendues explicites et reinterpretables (et donc
reutilisables), parce qu'elle decrit de facon assez explicite l'interaction entre semantique
et syntaxe. En m^eme temps, il nous semble que les fragments lexicaux presentes ici soient
l'une des premieres tentatives d'utiliser Frame Semantics dans un dictionnaire formellement represente.
L'encodage des dictionnaires utilise le formalisme Typed Feature Structures (TFS).
Ce livre en decrit les proprietes fondamentales, du point de vue de son utilisation (non-

standard, il est vrai) en tant que formalisme de representation d'information lexicale. Ceci
permet d'evaluer les possibilites d'une application des formalismes a contraintes, dont TFS
est un exemple, a la modelisation lexicale, la structuration de ressources lexicales et leur
interrogation et utilisation dans des systemes de traitement automatique des langues.
Comme nous l'avons indique plus haut, la de nition des principes de structuration lexicale se fait dans deux etapes: d'abord pour les dictionnaires monolingues, puis
pour les dictionnaires bilingues contrastifs. Ce processus suit aussi le cycle standard de
developpment de logiciels, connu de l'ingenerie logicielle: une de nition de requ^etes suivie d'une speci cation fonctionnelle, et en n d'une implantation, (la modelisation des
fragments dictionnairique mentionnes). Parmi les principes de base de l'architecture dictionnairique proposee, il faut nommer la modularisation des dictionnaires, selon les niveaux de description linguistique pertinents, la de nition de speci cations hierarchiques
pour chaque niveau (speci cation formellement et automatiquement contr^olable) et l'utilisation d'une approche relationnelle pour la de nition de l'interaction entre les modules.
La combinaison des descriptions monolingues en vue de la constitution d'un dictionnaire bilingue s'e ectue a travers la combinaison de classi cations syntaxiques, les
descriptions semantiques etant utilisees en tant que representations abstraites generalisees
pour les langues considerees. Cette utilisation d'une m^eme description semantique pour
les di erentes langues est conforme a l'hypothese de Frame Semantics qu'un frame est
une description d'une situation ou d'une scene et des objets, individus et phenomenes
(frame elements) qui participent a cette situation. Selon Frame Semantics, les di erentes
langues ont di erents moyens pour faire reference a une situation decrite par un frame.
L'approche suivie n'est donc pas sans rappeler le modele de traduction interlangue, bien
qu'elle ne vise pas a modeliser le contenu complet des enonces dans une representation
abstraite.
Si l'on compare et combine des classi cations syntaxiques monolingues, les resultats
de cette combinaison peuvent ^etre classi es eux-m^emes. Le resultat en est un systeme
de classes contrastives. On peut alors considerer ces classes contrastives comme un outil
technique pour la structuration de dictionnaires bilingues, et, pour pouvoir leur donner
un statut methodologique et descriptif plus clair, il faut d'une part les comparer avec les
classi cations contrastives traditionnelles, telles qu'elles apparaissent en traductologie, en
lexicographie bilingue et en grammaire contrastive, et d'autre par mettre en evidence
leur utilite pour la description homogene de problemes contrastifs lexicaux. Il s'avere que
les classes contrastives proposees ici couvrent assez bien les phenomenes decrits dans la
litterature pertinente (du moins pour la traduction des verbes et leur environnement syntagmatique, domaine exclusivement traite ici); en outre, la classi cation proposee ici est
plus generale que les tentatives precedentes elaborees dans la recherche en traduction automatique, puisqu'elle a besoin de moins de parametres de classi cation, et ces parametres
sont deja utilises dans la classi cation monolingue: il s'agit en e et de la modularisation
des entrees lexicales par niveaux descriptifs, et de la question de savoir quels objets linguistiques se distinguent entre la langue source et la langue cible (le lemme lui-m^eme, ces
complements sous-categorises, ou bien d'autres elements syntagmatiquement relies aux
lemmes).
Pour les deux types de dictionnaires, monolingues et bilingues, des principes architecturaux communs ont ete de nis. Nous avons discute les possibilites de realiser ces principes

dans une modelisation a contraintes, en TFS, et nous les avons appliques a des fragments
dictionnairiques. Voici un bref resumee de ces principes:


La modelisation lexicale doit reposer sur des speci cations qui de nissent les objets
lexicaux d'un domaine (cf. la de nition de speci cations dans les langages formels).
Un formalisme a contraintes permet aussi bien la de nition de speci cations lexicales formalisees (Quels attributs sont de nis pour un certain type d'objets lexicaux?
Quelles valeurs sont admis pour un attribut donne?) que la veri cation automatique de descriptions particulieres par rapport a la speci cation. L'utilisation d'un
formalisme a contraines supporte donc la consistance des descriptions lexicales, et il
permet le developpement d'outils automatiques pour le contr^ole de consistence d'un
dictionnaire qui aille bien au-dela des outils existant a l'heure.

Les speci cations lexicales doivent ^etre modulaires. Une modularisation a plusieurs
niveaux est propose:

{ Les dictionnaires monolingues sont des modules a part egale d'un dictionnaire

bilingue ou plurilingue.
{ Chaque description monolingue est elle-m^eme composee de modules, dont chacun est une speci cation d'un niveau de description linguistique. Ces modules
sont relies par des contraintes relationnelles.
{ Chaque speci cation d'un niveau de description linguistique donnee est ellem^eme composee de plusieurs modules:
 l'inventaire des dipositifs descriptifs (le vocabulaire de la speci cation);
 la de nition des combinaisons bien-formees des dispositifs descriptifs disponibles (la de nition des classes lexicales);
 la de nition d'instances lexicales (c'est-a-dire d'entrees lexicales individuelles, pour les sens des lemmes traites), sur la base de la classi cation
lexicale operee.


La modularisation stricte que nous proposons a certaines consequences pour les proprietes des speci cations lexicales:
il supporte la multifonctionalite visee, puisque l'exportation, de nie en termes de
routines d'exportation, repose sur la de nition des dipositifs descriptifs, et non pas
sur la description des classes lexicales ou des instances lexicales. Ceci est d'autant
plus important que le dictionnaire est un objet en evolution: l'exportation doit ^etre
independante de modi cations du dictionnaire; lorsque de nouvelles entrees lexicales sont rajoutees au dictionnaires, on ne veut pas ^etre contraint a modi er les
routines d'exportation. Les exemples discutes dans ce livre montrent que les routines
d'exportation sont independantes de modi cations aussi bien de la classi cation lexicale que de l'inventaire d'instances lexicales. Seules des modi cations de l'inventaire
des dispositifs descriptifs ont une incidence sur les routines d'exportation.

Les modules sont relies par des contraintes relationnelles. Ceci supporte l'interrogation
ad hoc du dictionnaire ainsi speci e. L'interrogation ad hoc implique entre autres
qu'aucun des niveaux de description linguistique ne soit prioritaire par rapport aux
autres. A la di erence des dictionnaires traditionnels et de la plupart des bases

de donnees, un dictionnaire a contraintes permet l'interrogation avec n'importe


quelle combinaison de descriptions partielles en attribut/valeur. Il n'est donc pas
necessaire, lors de l'interrogation, de passer par le nom du lemme en question, ni
de speci er des chemins d'acces particuliers a l'information lexicale. Il s'en suit
qu'une seule source lexicale peut alimenter aussi bien un dictionnaire semasiologique
qu'onomasiologique ou bien un dictionnaire structure selon la description syntaxique
ou selon une combinaison des di erents niveaus descriptifs. La, le formalisme et les
principes architecturaux enonces plus haut contibuent a la de nition d'architecture
lexicale neutre par rapport aux applications potentielles et les classes de dictionnaires connues de la typologie metalexicographique se voient analyser plut^ot en termes
d'applications que de principes.
 Etant donne que les speci cations des di erents niveaux de description linguistique
sont reliees explicitement entre elles, ces interrelations peuvent ^etre exploitees a des
ns de documentation. Les linguistes ont traditionnellement des dicultes, a accepter des criteres communs pour la classi cation semantique d'unites lexicales; temoin
le fait que rarement deux dictionnaires traditionnels operent les m^emes distinctions
de sens pour un m^eme lemme. Frame Semantics n'y fait pas exception. Mais le fait
que les descriptions semantique et syntaxique soient explicitement reliees permet
au moins une documentation des classi cations operees par Frame Semantics sur
la base des classi cations syntaxiques correspondantes. A partir de la, au moins
une veri cation sur corpus des exemples donnes pour une certaine classe lexicale de
Frame Semantics devient possible.
L'utilisation de TFS en tant que langage de representation lexicale est nouvelle, et TFS n'a
pas initialement ete concu pour cette nalite. Il s'en suit qu'un certain nombre de questions
methodologiques se pose au sujet de la construction de dictionnaires a contraintes, en
TFS. Il s'avere, par exemple, que la modularisation conduit a une certaine redondance:
certaines classi cations operees sur l'inventaire des dispositifs descriptifs se repercutent
sur la classi cation des objets lexicaux. Ensuite, on peut se poser la question suivante: estil utile d'avoir une seule hierarchie lexicale assez complexe, ou ne serait-il pas preferable
de modeliser le fragment en question sur la base d'une classi cation croisee de di erentes
hierarchies separees. Le lexicographe de nirait dans ce cas chaque hierarchie selon un
critere separe, et les di erentes hierarchies partielles ainsi constituees sont reunies. Tel
modele n'est pas entierement supporte par la version actuelle du systeme TFS utilise ici,
mais cette solution a ete simulee.
Les propositions pour l'architecture dictionnairique elaborees ici reposent sur une
de nition de requ^etes qui s'inspire d'une discusssion detaillee de la notion de ressource multifonctionnelle ainsi que d'experience lexicographique: les travaux d'exploitation et
de reutilisation de versions electroniques de dictionnaires traditionnels qui ont ete e ectues en \lexicographie computationnelle", au cours des dix dernieres annees, ont permis
de dedecter des problemes qui sont a eviter dans la conception de nouveaux dictionnaires.
L'utilisation de speci cations formelles permet de contourner le plus grand nombre de ces
problemes. En outre, nous avons pu pro ter d'experience de la lexicographie bilingue pratique: une comparaison de l'approche directionnelle (proposee par exemple par Kromann)
avec l'approche non-directionnelle realisee par la maison d'edition hollandaise Van Dale
montre la necessite d'une description tres detaillee des contraintes non seulement de la
langue source, mais, a part egale, de la langue cible. L'analyse detaillee de la methode

Van Dale de la reutilisation de dictionnaires bilingues met en evidence l'importance de


la modularisation des descriptions: la reutilisation operee dans les experiences Van Dale
fonctionne sans aucun probleme la ou les dictionnaires sont modulaires, mais elle pose
probleme la ou la modularite n'est pas complete.

7.3 English Summary


This book contains proposals for the organization of monolingual and bilingual dictionaries. The objective, in the dictionary organization exercise, is to provide reusable multifunctional resources, i.e. lexical data collections from where it is possible to derive information
for dictionary entries in the format of di erent applications.
We arrive at these proposals in two steps: rst concentrating on monolingual dictionaries then on contrastive ones intended for machine translation. We adopt this two-step
approach, because we want to be able to combine the monolingual dictionaries (which are
not a priori conceived as components of machine translation system) to built a contrastive
lexical knowledge source for machine translation. The multifunctionality aimed at thus
has several aspects: the useability of the monolingual dictionaries for both \human users"
and NLP-systems, the possibility to combine monolingual descriptions to construct contrastive dictionaries, and nally the use of one and the same contrastive description for
both transfer-based and interlingua-based machine translation systems.
A basic precondition for the combination of monolingual descriptions is that these
descriptions are parallel: all monolingual lexical fragments must be based on the same
approach and on a commen inventory of descriptive devices; in addition to these, of
course, language speci c phenomena must be dealt with.
The example fragments encoded and described in this book deal with the eld of perception words (for French, English and Dutch), and, to test the generalizability of the
approach, with an additional lexical eld, namely verbs of oral communication (data from
Italian). The verbs are described at the level of syntax and of (lexical) semantics. The
syntactic description follows the framework of Lexical Functional Grammar (LFG) and
Head Driven Phrase Structure Grammar (HPSG); dictionary entries in the form of these
two theories could be automatically derived from the entries contained in the fragments
described here, because they contain enough linguistic information to satisfy the requirements of both theories. The semantic description is based on Fillmore's approach, Frame
Semantics. This framework has been chosen as an example of an approach to lexical
semantic description which provides lexical classi cation and which can be at least indirectly reinterpreted, because semantic descriptions are explicitly linked to syntactic and
contextual properties observable in and retrievable from textual material. From this point
of view, Frame Semantics provides a good example for a reusable semantic description.
Moreover, the lexical fragments described in this book seem to be the rst ones, as far as
we can see, in which a formal representation of lexical entries from Frame Semantics is
provided.
Our encoding of dictionary fragments makes use of the Typed Feature Structures
formalism, TFS. We describe its most important formal properties from the point of view
of lexicographic application, which allows to assess the usefulness of constraint logic-based
formalisms for lexical modelling, for the organization of dictionaries and for the retrieval
of lexical information in NLP contexts.
Among the basic principles of the dictionary architecture proposed in this book are
the modularisation of dictionaries according to di erent levels of linguistic description, the
de nition of separate hierarchical speci cations for each level, the possibility to formally
check these speci cations and the use of a relational approach to combine the di erent
modules. The combination of monolingual descriptions in view of the construction of a
contrastive dictionary relies on relationships between syntactic classi cations, using the

semantic description as a common abstract representation of the phenomena appearing in


the languages considered. This procedure is in line with the basic assumptions of Frame
Semantics: a Frame is the description of a situation or scene, and of the objects, individuals
and events (Frame Elements) involved in the situation. Di erent languages may refer to
the situation described in a Frame in di erent ways and with di erent linguistic means; our
approach is close to the model of interlingua-based translation, without however aiming at
a full modelling of the content of utterances within an abstract representation formalism.
When it is possible to combine the elements of di erent monolingual syntactic classi cations, the results of such combination can again be classi ed. This leads to \contrastive
classes" which are described in the last chapter of this book, from the phenomenological
point of view. Given that the contrastive classes we have established could be interpretated
a priori as being nothing but a technical device for the structuring of bilingual dictionries,
we have to verify to what extent these contrastive classi cations express generalizations
and, more generally, to what extent they are relevant for the homogeneous description of
contrastive problems in the lexicon.
The contrastive classes proposed here cover all of the phenomena discussed in the relevant literature (we have however only considered a part of the lexicon: the translation
of verbs and of their syntagmatic environment); moreover, our contrastive classi cation is
more general than earlier classi cation proposals from machine translation, and it needs
less parameters than those. Our basic parameters are already necessary for the monolingual classi cation: this is true in particular of the modularization of lexical entries and
of the question which linguistic objects of source and target language display di erences
under translation (the lemma itself, its subcategorized complement or other material in
its syntagmatic environment).
For both types of dictionaries, monolingual and contrastive, we discuss common architectural principles; we verify whether these principles can be realized and implemented in
TFS, and we discuss examples of monolingual lexical fragments, their use for the retrieval
of lexical information, as well as their combination from a contrastive point of view. The
principles underlying the dictionary architecture proposed are the following:
1. Dictionaries must be speci cations which de ne well-formed linguistic objects of a
domain, and only those (cf. the de nition of speci cations in formal languages). A
constraint-based formalism not only allows the de nition of formal lexical speci cations (which attributes are de ned for which types of lexical objects? which values
are available for an attribute? etc.), but also it supports an automatic checking of
invidual lexical descriptions, to prove conformity with a given speci cation. These
automatic means allow to improve the consistency of lexical description, which in
turn should be a precondition for the development of automatic tools for consistency
control, to be used for example in interactive and automatic lexical acquisition, in
updates of lexical speci cations and in the reclassi cation of lexical material.
2. Lexical speci cations should be modular. We suggest a modularization at di erent
levels:



the individual monolingual dictionaries are a module of a contrastive bilingual


or multilingual lexical resource;
each monolingual description contains itself several modules, each of which
is a speci cation for a single level of linguistic description. The level-speci c

modules are related by means of relational constraints;


each level-speci c description itself is composed of several modules:
{ the inventory of descriptive devices (vocabulary),
{ the de nition of combination possibilites for the invidual descriptive devices (lexical classes),
{ the de nition of individual lexical instances (dictionary entries) on the
basis of the classes.

3. The modularity leads to a number of desirable properties:


 The multifunctionality aimed at is supported by the fact that exportation
routines do not use lexical classes or lexical instances as their input, but are
bound to the descriptive devices underlying these. The dictionary and the
exportation procedures are thus more robust with respect to modi cations:
no changes are necessary in exportation routines when new entries are added
to the lexicon. Only the introduction of new descriptive devices (for example
new semantic roles, new grammatical functions) would lead to modi cation in
the exportation routines. Examples for di erent exportation applications are
discussed in this book.
 The individual modules of the dictionary are related by means of relational
constraints. This allows access to any kind of partial lexical information ad
hoc. The possibility of ad hoc query (available, of course, in all constraint-based
formalisms) helps to avoid that any descriptive level or any type of description
has priority over the others; this allows to derive dictionaries of di erent types
from and the same source: semasiological ones, onomasiological dictionaries or
dictionaries structured in any other form. In an analoguos way, all levels of
description from both source and target language can in uence the selection
of equivalents, in a bilingual dictionary for machine translation.
 Given that the speci cations for the di erent levels of linguistic description
are related explicitly among each other, they serve \as documentation of each
other". It is well known how dicult it is to come to an agreement among
linguists about the criteria for semantic description of lexical items. Frame Semantics is not an exeption to this rule; however, the explicit statements about
the interrelationships between syntactic and semantic descriptions ensures at
least partial transparency of Frame Semantics classi cations through their syntactic counterparts. This improves chances of reinterpreting lexical descriptions
and thus reusing them.
The use of TFS as lexical speci cation language is quite new, and the TFS formalism has
not been conceived originally for this purpose. It is thus necessary to discuss a number
of methodological issues concerning the construction of TFS-dictionaries. For example, it
seems that the classi cation of descriptive devices (for examples roles) is in part mapped
on the classi cation of lexical objects (for example verb classes). The modularization thus
has to be paid by some redundancy.
Moreover, we have to ask ourselves how useful it is to specify a single deep and possibly
quite complex lexical hierarchy. Ideally, the lexical model would be speci ed by crossclassi cation of di erent partial hierarchies; the lexicographer would de ne a hierarchy to

classify the targeted domain according to one single criterion. He would also de ne partial
hierarchies for further criteria of descriptive relevance. These would be cross-classi ed
with the main hierarchy. The realization of such a model (of multiple hierarchies and
cross-classi cation) is not yet fully supported by the current version of the TFS system.
However, a solution has been simulated and is discussed.
Our proposals for a dictionary architecture are based on a requirements de nition
which itself is inspired by a discussion of the notion of multifunctional dictionaries and by
experience from lexicography; we try to avoid the problems we encountered in the analysis
of machine readable versions of printed dictionaries in view of their reuse in an NLPcontext. Most of these problems indeed are removed by the use of formal speci cations.
We also pro t from lexicographic experience when designing bilingual dictionaries.
A comparison of the directional approach (e.g. proposed by Kromann) with the nondirectional approach followed, for example, by the Dutch publisher Van Dale, shows the
necessity of a detailed description of target language constraints (because of their relevance for equivalent selection), as well as the importance of an equal treatment of source
and target language. The analysis of the procedures used by Van Dale in view of the
reuse of their bilingual dictionaries proves the importance of the modularization of lexical
descriptions: the reuse is easy in all cases where the Van Dale dictionaries are modular,
and it poses problems at those places where they are not.

Literaturverzeichnis

[ACL-29 1991] Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics,
(Berkeley, Ca.: University of California), 1991.
[Ahmad et al. 1993] Khurshid Ahmad, Stephen Hook, Lothar Lemnitzer, Nicole Modiano, Jan Odijk,
Wolf Paprotte, Frank Schumacher: \MLEX-d Standards for a Multifunctional Lexicon", Final report, (Paris: CAP Gemini) 1993.
[Al 1983] Bernard P. F. Al: Dictionnaire de theme et dictionnaire de version, in: Revue de phonetique
appliquee, 66-68 (1983): 201-211.
[Al 1988] Bernard P. F. Al: Langue source, langue cible et metalangue, in: [Landheer (Ed.) 1988]: 15 29.
[Al et al. 1985] Bernard P. F. Al et al.: Van Dale groot woordenboek Nederlands - Frans, (Utrecht/Antwerpen: Van Dale), 1985.
[Alshawi 1989] Hiyan Alshawi: Analysing the dictionary de nitions, in: [Boguraev/Briscoe 1989]: 153169.
[Alvar-Ezquerra (Ed.) 1992] Manuel Alvar-Ezquerra (Ed.): Proceedings of the EURALEX International
Congress, Malaga, September 1990, (Barcelona: Biblograf), 1991.
[Arnold et al. 1994] Douglas Arnold, Lorna Balkan, R. Lee Humphreys, Siety Meijer, Louisa Sadler:
Machine Translation: An Introductory Guide, (Oxford: NCC Blackwell), 1994.
[ACL 1990] Proceedings of the 28th Annual Conference of the Association for Computational Linguistics.
(Pittsburgh, Pa.: University of Pittsburgh), 1990.
[Amsler 1980] Robert A. Amsler. The Structure of the Merriam-Webster Pocket Dictionary. PhD Thesis
(Austin: University of Texas), 1980.
[Atkins 1994] Beryl T. S. Atkins: Analyzing the verbs of seeing: a frame semantics approach to corpus
lexicography, to appear in: [Gahl/Johnson/Dolbey (Eds.) 1994].
[Atkins/Duval/Milne 1987] Beryl T. S. Atkins, Alain Duval, Rosemary C. Milne: Robert & Collins Dictionnaire Francais - Anglais, Anglais - Francais, (Paris: Le Robert/ Glasgow: Collins), 1987.
[Atkins/Fillmore 1994] Beryl T. S. Atkins, Charles Fillmore: Starting where the Dictionaries stop: The
Challenge of Corpus Lexicography, in: [Atkins/Zampolli (Ed.) 1994]: 349-393, 1994.
[Atkins et. al. 1994] Beryl T. S. Atkins, Charles J. Fillmore, John B. Lowe, Nancy Urban: The Dictionary
of the Future: a Hypertext Database. Presentation and on-line demonstration at the Xerox-Acquilex
Symposium on the Dictionary of the Future, Uriage, France, 1994, ms.
[Atkins/Levin/Zampolli 1994] Beryl T. S. Atkins, Beth Levin, Antonio Zampolli: Computational Approaches to the Lexicon: An Overview, in: [Atkins/Zampolli (Ed.) 1994]: 17-45, 1994.
[Atkins/Zampolli (Ed.) 1994] Beryl T. S. Atkins, Antonio Zampolli (Ed.): Computational Approaches
to the Lexicon (Oxford: Oxford University Press), 1994.
[Avignon 1991] Eleventh International Conference `Expert Systems and their Applications', Avignon,
France, May 27 - 31, 1991: `Specialized Conference: Natural Language Processing and its Applications', (Nanterre: EC2), 1991.
[Barnett et al. 1994] James Barnett, Inderjeet Mani, Elaine Rich: \Reversible Machine Translation:
What to do when the Languages don't match up", in: [Strzalkowski (Ed.) 1994]: 321-364, 1994.
[Baunebjerg Hansen 1990] Gitte Baunebjerg Hansen: Artikelstruktur im zweisprachigen
Worterbuch, (Tubingen: Narr), 1990 [=Lexicographica Series Maior 35].
[Bemova et al. 1988] Alevtina Bemova, Karel Oliva, Jarmila Panevova: \Some Problems of Machine
Translation Between Closely Related Languages", in: Proceedings of COLING-88, Bonn, (Bonn:
IKP), 1988.
[Blaser/Schwall/Storrer 1992] Brigitte Blaser, Ulrike Schwall, Angelika Storrer: \A reusable lexical database tool for machine translation"; in: Proceedings of COLING-1992.
[Blasi/Koch 1992] Christoph Blasi, Heinz-Detlev Koch: \Dictionary Entry Parsing Using Standard Methods", in: [Kiefer/Kiss/Pajzs (Ed.) 1992]: 61-70, 1992.
[Boguraev/Briscoe 1989] Branimir Boguraev, Ted Briscoe (Eds.): Computational Lexicography for Natural Language Processing, (London, New York: Longman), 1989.
[Bouillon/Clas 1993] Pierette Bouillon, Andre Clas (Eds.): Etudes et recherches en traductique. Problemes de traduction par ordinateur, (Montreal: P.U.M.), 1993.
[Bresnan (Ed.) 1982] Joan Bresnan (Ed): The Mental Representation of Grammatical Relations, (Cambridge, Mass.: The MIT Press), 1982.

[Briscoe/de Paiva/Copestake (Eds.) 1993] Ted Briscoe, Valerio de Paiva, Ann Copestake (Eds.): Inheritance, Defaults and the Lexicon, (Cambridge: Cambridge University Press), 1993.
[Busse/Dubost 1983] Winfried Busse, Jean-Pierre Dubost: Franzosisches Verblexikon. Die Konstruktion
der Verben im Franzosischen, (Stuttgart: Ernst Klett), 2 1983, 1 1987.
[Calzolari/Corazzari 1995] Nicoletta Calzolari, Ornella Corazzari: \The DELIS description of speech act
verbs", in: [Heid (Coord.) 1995]: 52-62.
[Calzolari/Monachini 1993] Nicoletta Calzolari, Monica Monachini: Synopsis and Comparison of Morphosyntactic Phenomena Encoded in Lexicons and Corpora. A Common Proposal and Applications
to European Languages. Draft Version. (Pisa: ILC), 1993, erganzt 12-1994.
[Caroli 1991] Folker Caroli: The feasibility of standards for bilingual description of lexical items (Saarbrucken: IAI), ms., 1991, [= Eurotra-7, DOC-10].
[Carpenter 1992] Bob Carpenter: The logic of typed feature structures., (Cambridge: Cambridge University Press), 1992 [= Cambridge Tracts in Theoretical Computer Science].
[Christ 1993] Oliver Christ: The XKwic User Manual, ms., (Stuttgart: IMS), 1993.
[Cohen 1986] Betty Cohen: Lexique de cooccurrents; Bourse { conjoncture economique, (Montreal: Linguatech), 1986.
[Cox et al. 1986] H.L. Cox et al.: Van Dale groot woordenboek Nederlands-Duits, (Utrecht/Antwerpen:
Van Dale), 1986.
[Crookston et al. 1990] Ian Crookston, Jane Simcoe-Shelton, Andy Way: Eurotra Problem Oce Interlevel Syntax Research Pool. Area B: Interlevel Processing. Final Research Report, 1990.
[Daelemans/Van der Linden 1992] Walter Daelemans, Erik-Jan van der Linden: \Evaluation of Lexical
Representation Formalisms", (Tilburg: Institute for Language Technology and Arti cial Intelligence), [= ITK Research Memo, No. 14], 1992.
[Dalrymple (Ed.) 1995] Mary Dalrymple, Ronald M. Kaplan, John T. Maxwell III, Annie Zaenen (Eds.):
Formal Issues in Lexical-Functional Grammar, (Stanford: Xerox Parc), ms., 1995, im Druck.
[DANLEX 1987] The DANLEX Group: Ebba Hjorth, Bodil Nistrup Madsen, Ole Norling-Christensen,
Jane Rosenkilde, Hanne Ruus: Descriptive Tools for Electronic Processing of Dictionary Data,
(Tubingen: Niemeyer), 1987, [= Lexicographica Series Maior 20].
[Danlos 1987] Laurence Danlos: The linguistic basis of text generation, Studies in Natural Language
Processing, (Cambridge: Cambridge University Press), 1987.
[Domenig 1987] Marc Domenig: Entwurf eines dedizierten Datenbanksystems fur Lexika, (Tubingen:
Niemeyer), 1987.
[Domenig/ten Hacken 1992] Marc Domenig, Pius ten Hacken: Word Manager: A System for Morphological Dictionaries, (Hildesheim: Olms), 1992, [= Informatik und Sprache, Band 1].
[Domenig 1989] Marc Domenig: Word Manager; A System for the Speci cation, Use and Maintenance
of Morphological Knowledge, (Zurich: Universitat Zurich), Habilitationsschrift, 1989.
[Dorr 1990] Bonnie J. Dorr: Solving Thematic Divergences in Machine Translation, in: [ACL 1990]: 127134.
[Dorr 1991] Bonnie J. Dorr: A Two-Level Knowledge Representation for Machine Translation: Lexical
Semantics and Tense/Aspect, in: [Pustejovsky/Bergler (Ed.) 1991]: 250-263.
[Dorr 1993a] Bonnie J. Dorr: \Interlingual machine translation: A parameterized approach", in: Arti cial
Intelligence 63 (1993): 429-492.
[Dorr 1993b] Bonnie J. Dorr: Machine Translation: A View from the Lexikon, (Cambridge, MA: The
MIT Press), 1993 [= Arti cial Intelligence Series].
[Durrell 1988] Martin Durrell: Some problems of contrastive lexical semantics, in: [Hullen/Schulze (Ed.)
1988]: 230-241, 1988.
[Van der Eijk et al. 1991] Pim van der Eijk, Laura Bloksma, Anne van Bolhuis, Joy Herklots, Elly van
Munster, Jeroen Fokker, Mark van der Kraan, Angelique Geilen: \Final Report of the Lexic Project
Phase I" (Utrecht: Stichting Taaltechnologie), 1991.
[Emele 1996] Martin C. Emele: Die TFS-Sprache und ihre Implementierung, Dissertation Stuttgart, 1996.
[Emele 1994] Martin C. Emele: \TFS { The Typed Feature Structure Representation Formalism", in:
Proceedings of the International Workshop on Sharable Natural Language Resources (SNLR), 1994.
[Emele 1993] Martin C. Emele: TFS { The Typed Feature Structure Representation Formalism, in: [Uszkoreit (Ed.) 1993]: Proceedings of the EAGLES workshop on implemented formalisms, (Saarbrucken: DFKI), 1993.
[Emele/Heid/Humphreys 1993] Martin C. Emele, Ulrich Heid, Lee Humphreys: Towards a linguistic

architecture and tool system architecture for DELIS { Descriptive choices, dictionary organization
and tool system outline, Deliverable D-I-2 of DELIS (LRE 61.034), nal version of June 26th, 1993.
[Emele/Zajac 1990] Martin C. Emele, Remi Zajac: Typed uni cation grammars. In: Proceedings of the
13th International Conference in Computational Linguistics (CoLing90), Helsinki, August 1990.
[Emele/Heid 1993] Martin C. Emele, Ulrich Heid: Formal speci cation of a typed feature logic based
lexical representation language, deliverable D-V-2 of Delis (LRE 61.034), (Stuttgart), 1993.
[Emele/Heid 1994] Martin C. Emele, Ulrich Heid: Delis: tools for corpus based lexicon building, in: Proceedings of Konvens-94, (Heidelberg: Springer) 1994, [= Informatik Xpress 6].
[Feldbusch/Pogarell/Weiss 1991] Elisabeth Feldbusch, Reiner Pogarell, Cornelia Weiss: Neue Fragen der
Linguistik; Akten des 25. Linguistischen Kolloquiums, Paderborn 1990; Band 2: Innovation und
Anwendung; (Tubingen: Niemeyer), 1991.
[Fenstad et al. 1985] Jens Erik Fenstad, Per-Kristian Halvorsen, Tore Langholm, Johan van Benthem:
Situations, Language and Logic, (Dordrecht: Reidel), 1985.
[Fillmore/Atkins 1994] Beryl T. S. Atkins, Charles Fillmore: \Starting where the Dictionaries Stop: The
Challenge of Corpus Lexicography", in: [Atkins/Zampolli (Ed.) 1994]: 349-393, 1994.
[Fillmore 1993a] Charles Fillmore: A Cognitive-Frames Approach to the Vocabulary of Sensation and
Perception in English, ms., 8 SS., (Berkeley: University of California), 1993.
[Fillmore 1993b] Charles Fillmore: \Frame semantics and perception verbs", in: Hans Kamp, James
Pustejovsky (Eds.): Universals in the Lexicon: At the Intersection of Lexical Semantic Theories,
1993, ms., Dagstuhl.
[Flickinger 1987] Daniel Paul Flickinger: Lexical Rules in the Hierarchical Lexicon, ms., Dissertation
(Stanford: Stanford University); 1987.
[Fontenelle/Adriaens/De Braekeleer 1993] Thierry Fontenelle, Geert Adriaens, Gert De Braekeleer:
\L'unite lexicale dans le systeme de traduction assistee par ordinateur Metal", in: [Bouillon/Clas
1993]: 364-376.
[Gahl/Johnson/Dolbey (Eds.) 1994] S. Gahl, C. Johnson, A. Dolbey (Eds.): Proceedings of the Twentieth Annual Meeting of the Berkeley Linguistics Society, 1994, (Berkeley: University of California),
1994.
[Gazdar et al. 1985] Gerald Gazdar, Ewan Klein, Geo rey Pullum und Ivan Sag: Generalized Phrase
Structure Grammar. (Oxford: Blackwell), 1985.
[Goetschalckx/Rolling (Ed.) 1982] Jan Goetschalckx, Loll Rolling (Eds.): Lexicography in the Electronic
Age, Proceedings of a Symposium held in Luxemburg, 7-9 July, 1981, (Amsterdam: North-Holland),
1982.
[Golan/Lappin/Rimon 1988] Igal Golan, Shalom Lappin, Mori Rimon: \An Active Bilingual Lexicon for
Machine Translation", in: Proceedings of COLING-88, Bonn, (Bonn: IKP), 1988: 205-211.
[Grahs/Korlen/Malmberg (Ed.) 1976] Lillebill Grahs, Gustav Korlen, Bertil Malmberg (Ed.): Theory and Practice of Translation, Nobel Symposium 39, Stockholm, September 6-10, 1976,
(Bern/Frankfurt/Las Vegas: Lang) 1976.
[Grishman/MacLeod/Meyers 1994] Ralph Grishman, Catherine MacLeod, Adam Meyers: Comlex Syntax: Building a Computational Lexicon, in: Proceedings of the 15th International Conference of
Computational Linguistics (COLING 94), Kyoto, 1994.
[Grishman/MacLeod 1994] Ralph Grishman, Catherine MacLeod: COMLEX Syntax Reference Manual
Version 1.1, Draft prepared for the Linguistic Data Consortium, University of Pennsylvania, 1994.
[Hauenschild 1987] Christa Hauenschild: \KI-Methoden in der maschinellen U bersetzung?", in: [Morik
(Ed.) 1987]: 41-53.
[Hausmann 1977] Franz Josef Hausmann: Einfuhrung in die Benutzung der neufranzosischen
Worterbucher, Tubingen, Niemeyer, 1977.
[Hausmann 1979] Franz Josef Hausmann: \Un dictionnaire des collocations est-il possible?" in: Travaux
de Linguistique et de Litterature XVII, 1: 187-195, 1979.
[Hausmann 1985] Franz Josef Hausmann: \Lexikographie", in: [Schwarze/Wunderlich 1985]: 367-411.
[Hausmann 1989] Franz Josef Hausmann: \Grundprobleme des zweisprachigen Worterbuchs", in:
[Hyldgaard-Jensen/Zettersten 1989].
[Hausmann 1989] Franz Josef Hausmann: \Le dictionnaire de collocations", in: [Hausmann et al (Ed.)
1989]: Worterbucher, Dictionaries, Dictionnaires. Ein internationales Handbuch, (Berlin: de Gruyter): 1010-1019, 1989.
[Heid 1988] Ulrich Heid: \Zweisprachige Worterbucher fur maschinelle U bersetzung. Bemerkungen zum

Verhaltnis von zweisprachiger Lexikographie und der Erstellung von Transferworterbuchern", in:
[Hyldgaard-Jensen/Zettersten 1989]: 193-217.
[Heid 1990] Ulrich Heid: \Monolingual, bilingual, interlingual description", in: [Alvar-Ezquerra (Ed.)
1992].
[Heid 1991a] Ulrich Heid: \Syntactic Information in (Machine) Translation Dictionaries", in: [HyldgaardJensen/Zettersten 1991].
[Heid 1991b] Ulrich Heid: \Towards reusable lexical resources for natural language processing. Some
proposals for linguistic knowledge representation", in: [Avignon 1991]: Vol. 8: 89-101.
[Heid 1991c] Ulrich Heid: A short report on the Eurotra-7 Study, (Stuttgart/Luxemburg: Universitat
Stuttgart/Commission of the European Communities), April 1991, ms., 42 SS.
[Heid 1993] Ulrich Heid: \Le lexique: Quelques problemes de description et de representation lexicale
pour la traduction automatique", in: [Bouillon/Clas 1993]: 169-196.
[Heid 1994] Ulrich Heid: \Klassenbildung in einem kontrastiven Worterbuch fur maschinelle U bersetzung"; in: [Hyvarinen/Klemmt 1994]: 299-320; 1994.
[Heid 1994a] Ulrich Heid: \Contrastive Classes { Relating Monolingual Dictionaries to build an MT
Dictionary"; in: [Kiefer/Kiss/Pajzs (Ed.) 1994]: 115-126; 1994.
[Heid 1995a] Ulrich Heid: \Zum Export lexikalischer Informationen aus Worterbuchern von DELIS", to
appear in: [Hotker/Ludewig (Ed.) 1996].
[Heid 1995b] Ulrich Heid: \Relating Parallel Monolingual Fragments for Translation Purposes", in: Petra
Ste ens (Ed.): Machine Translation and the Lexicon, Proceedings of the Third International EAMT
Workshop (April 1993), (Heidelberg: Springer), 1995.
[Heid 1995c] Ulrich Heid: \On the veri cation of lexical descriptions in text corpora", in: [Weber (Ed.)
1996].
[Heid 1996] Ulrich Heid: \Corpusbasierter Aufbau eines Worterbuchs der Funktionsverbgefuge", soll erscheinen in: [Wotjak (Ed.) 1996].
[Heid (Coord.) 1995] Ulrich Heid (Coord.): A lexicographic and formal description of the lexical classes
of perception and speech act verbs, (Stuttgart/Luxemburg: Universitat Stuttgart/CEC), ms. 1995
[= Deliverable D-III-1 des DELIS-Projektes].
[Heid/Christ/Heyn 1992] Ulrich Heid, Oliver Christ, Matthias Heyn: \Extracting linguistic information from machine-readable versions of traditional dictionaries { a metalexicographic method and
some tools", in: Proceedings of COMPLEX-92, Conference on Computational Lexicography and
Text Research, (Budapest: Academy of Science, Institute for Linguistics), ms.; to appear in: Acta
Linguistica Hungarica, 1993
[Heid/Kruger 1994] Ulrich Heid, Katja Kruger: On the DELIS Corpus Evidence Encoding Schema
(CEES), (Stuttgart: IMS) 1994, [= Deliverable D-III-0 of DELIS (LRE 61.034)].
[Heid/Kuhn 1994] Ulrich Heid, Jonas Kuhn: \Treating structual di erences in an HPSG-based approach
to interlingual machine translation", in: Peter Bosch, Christopher Habel (Eds.): Proceedings of
Arbeitsgruppe AG-6 der DGfS-Jahrestagung 1994.
[Heid/McNaught 1991] Ulrich Heid, John McNaught: Eurotra-7: Feasibility and Project De nition
Study on the Reusability of lexical and terminological resources in Computerized Applications {
Final Report, (Stuttgart/Luxembourg: IMS-CL/Kommission der
europaischen Gemeinschaften), 1991, ms., 189 SS.
[Heid/Schiller/Teufel 1993] Ulrich Heid, Anne Schiller, Simone Teufel: On lexical speci cations and tagsets, IMS Stuttgart, Notes for EAGLES discussion, preliminary draft, 1993.
[Heyn 1992] Matthias Heyn: Wiederverwendung maschinenlesbarer Worterbucher. Eine computergestutzte metalexikographische Studie zur Wiederverwendung des Oxford Advanced Learner's Dictionary in NLP. (Tubingen: Niemeyer), 1992 [= Lexicographica Series Maior].
[Heyn/Christ/Heid 1992] Matthias Heyn, Oliver Christ, Ulrich Heid: \Computergestutzte Metalexikographie; Erfahrungen bei der Ermittlung der Wiederverwendbarkeit eines Worterbuchs fur maschinelle Sprachverarbeitung"; in: LDV-Forum 9 (1), 1992.
[Hildenbrand/Heid 1991] Elke Hildenbrand, Ulrich Heid: \Ansatze zur Ermittlung der linguistischen
Leistungsfahigkeit von maschinellen U bersetzungssystemen { Zur Entwicklung von franzosischdeutschem Testmaterial fur SYSTRAN", in: [Feldbusch/Pogarell/Weiss 1991].
[Hinkelman (Ed.) 1995] Elizabeth Hinkelman: Relator Typology Version 1.0, DFKI, Saarbrucken, 1994.
[Hotker/Ludewig (Ed.) 1996] Wilfried Hotker, Petra Ludewig (Eds.): Lexikonimport, Lexikonexport:
Studien zur Wiederverwertung lexikalischer Information, (Tubingen: Niemeyer) 1996 [= Sprache

und Information Band 31].


[Hotker/Ludewig 1996] Wilfried Hotker, Petra Ludewig: \Einleitung", in [Hotker/Ludewig (Ed.) 1996],
1996.
[Hullen/Schulze (Ed.) 1988] Werner Hullen, Rainer Schulze (Eds.): Understanding the Lexicon, (Tubingen: Niemeyer), 1988 [= Meaning, Sense and World Knowledge in Lexical Semantics, Linguistische
Arbeiten 210].
[Huot 1981] Helene Huot: Constructions in nitives du francais. Le subordonnant de, (Geneve: Droz),
1981.
[Hyldgaard-Jensen/Zettersten 1988] Karl Hyldgaard-Jensen and Arne Zettersten (Eds.): Symposium on
Lexicography IV, Proceedings of the Fourth International Symposium on Lexicography April 20-22,
1988 at the University of Copenhagen, (Tubingen: Niemeyer), 1988.
[Hyldgaard-Jensen/Zettersten 1989] Karl Hyldgaard-Jensen, Arne Zettersten (Eds.): Symposium on Lexicography III, (Tubingen: Niemeyer), 1989
[Hyldgaard-Jensen/Zettersten 1991] Karl Hyldgaard-Jensen, Arne Zettersten (Eds.): Symposium on Lexicography V, Proceedings of the Fifth International Symposium on Lexicography May 3-5, 1990
at the University of Copenhagen, (Tubingen: Niemeyer), 1991.
[Hyvarinen/Klemmt 1994] Irma Hyvarinen, Rolf Klemmt (Hg.): Von Frames und Slots bis Krambambuli:
Beitrage zur zweisprachigen Lexikographie; Studia Philologica Jyvaskylaensia, 34; University of
Jyvaskyla, 1994.
[Jauss 1994] Susanne Jauss: Regeln zur Abbildung von lexikalischen Beschreibungen in DELIS auf
Corpus-Annotationen in ENGCG: De nition, Anwendung und Text, Studienarbeit, ms., Universitat Stuttgart, Institut fur Computerlinguistik, September 1994.
[Jarventausta 1994] Marja Jarventausta: \Das Verbvalenzworterbuch als produktives Konstruktionsworterbuch"; in [Hyvarinen/Klemmt 1994]: 47-67, 1994.
[Kameyama/Ochitani/Peters 1991] Megumi Kameyama, Ryo Ochitani and Stanley Peters: \Resolving
Translation Mismatches With Information Flow", in: [ACL-29 1991], 1991.
[Kanngiesser 1995] Siegfried Kanngieer: \Zwei Prinzipien des Lexikonimports und Lexikonexports", in:
[Hotker/Ludewig (Ed.) 1996].
[Karlsson 1992] Fred Karlsson: Lexicography and Corpus Linguistics. Opening Address at 5th Congress
of EURALEX, Tampere, August 4, 1992.
[Kaplan/Bresnan 1982] Ronald M. Kaplan, Joan Bresnan: \Lexical Functional Grammar: A Formal System for Grammatical Representation", in: Joan Bresnan (Ed.): The Mental Representation of
Grammatical Relations, SS. 173-281, Cambridge, MA: The MIT Press, reprinted in part I of [Dalrymple (Ed.) 1995].
[Kaplan et al. 1989] Ronald M. Kaplan, Klaus Netter, Jurgen Wedekind, Annie Zaenen. \Translation by
Structural Correspondences, in: Proceedings of the Fourth Conference of ACL, European Chapter,
Manchester, 10-12 April 1989.
[Kaplan et. al. 1995] Ronald M. Kaplan, Klaus Netter, Jurgen Wedekind, Annie Zaenen: \Translation
by Structural Correspondences", in: [Dalrymple (Ed.) 1995].
[Kaplan 1995] Ronald M. Kaplan: The Formal Architecture of Lexical-Functional Grammar, in: [Dalrymple (Ed.) 1995].
[Kaplan/Bresnan 1982] Ronald M. Kaplan, Joan Bresnan: \Lexical Functional Grammar: A Formal System for Grammatical Representation", in: Joan Bresnan (Ed.): The Mental Representation of
Grammatical Relations, SS. 173-281, Cambridge, MA: The MIT Press, reprinted in part I of [Dalrymple (Ed.) 1995].
[Kaplan/Wedekind 1993] Jurgen Wedekind, Ronald M. Kaplan: \Type-Driven Semantic Interpretation
of f-Structures"; in: Proceedings of the Conference of the European Chapter of the Association for
Computational Linguistics; 1993.
[Kay/Gawron/Norvig 1994] Martin Kay, Jean Mark Gawron, Peter Norvig: VERBMOBIL: A Translation
System for Face-to-Face Dialog; (Stanford, CSLI), 1994.
[Kiefer/Kiss/Pajzs (Ed.) 1992] Ferenc Kiefer, Gabor Kiss, Julia Pajzs (Eds.): Papers in Computational
Lexicography { Complex '92, (Budapest: Linguistics Institute, Hungarian Academy of Sciences),
1992.
[Kiefer/Kiss/Pajzs (Ed.) 1994] Ferenc Kiefer, Gabor Kiss, Julia Pajzs (Eds.): Papers in Computational
Lexicography { Complex '94, (Budapest: Linguistics Institute, Hungarian Academy of Sciences),
1994.

[Koch 1994a] Peter Koch: \Valenz und Informationsstruktur im Sprachvergleich Italienisch-Deutsch", in:
Italienisch (November 1994), (Frankfurt am Main: Moritz Diesterweg): 38-58.
[Koch 1994b] Peter Koch: \Verbvalenz und Metataxe im Sprachvergleich", in: Werner Thielemann, Klaus
Welke (Ed.): Valenztheorie { Werden und Wirkung, (Munster: Nodus), 1994: 109-124.
[Koch 1995a] Peter Koch: \Aktantielle Metataxe und Informationsstruktur in der romanischen Verblexik
(Franzosisch, Italienisch, Spanisch)", erscheint in: Wolgang Dahmen u.a. (Hrsg.), Konvergenz und
Divergenz in den romanischen Sprachen. Romanistisches Kolloquium VIII, Tubingen: Narr 1995 [=
TBL, 396].
[Koch 1995b] Peter Koch: \La metataxe actancielle { De Tesniere a Busse/Dubost", erscheint in: Gertrud Greciano/Helmut Schumacher (Ed.): Syntaxe Structurale et Operations Mentales (Tubingen:
Niemeyer), 1995 [= Linguistische Arbeiten].
[Koller 1976] Werner Koller: \A quivalenz in kontrastiver Linguistik und U bersetzungswissenschaft", in:
[Grahs/Korlen/Malmberg (Ed.) 1976]: 69-92.
[Krenn 1995] Herwig Krenn: Franzosische Syntax, (Berlin: Erich Schmidt), [= Grundlagen der Romanistik 19], 1995.
[Kromann 1989] Hans Peder Kromann: \Neue Orientierung der zweisprachigen Worterbucher", in: Mary
Snell-Hornby/Esther Pohl (Eds.): Translation and Lexicography, Paintbrush, 1989.
[Kromann/Riiber/Rosbach 1984] Hans-Peder Kromann, Theis Riiber, Poul Rosbach: \Active and Passive Bilingual Dictionaries: The Scerba Concept Reconsidered", in: Proceedings of Lexeter-83, Bd.II,
(Tubingen, Niemeyer), 1984: 207-215.
[Kromann/Riiber/Rosbach 1989] Hans-Peder Kromann, Theis Riiber, Poul Rosbach: Principles of bilingual lexicography, in: Franz-Josef Hausmann, Oskar Reichmann, Herbert-Ernst Wiegand, Ladislav
Zgusta (Ed.): Dictionaries, Dictionnaires, Worterbucher, Ein internationales Handbuch, (Berlin: de
Gruyter) 1989.
[Kruger 1996] Katja Kruger: Modelling visual attention verbs in Frame Semantics { A corpus-based
analysis of verbs of looking, ms. (Stuttgart: IMS-CL), 1996, 146 SS. [Studienarbeit].
[Kuhn 1993] Jonas Kuhn: Encoding HPSG Grammars in TFS, (ms., Stuttgart: IMS) 1993.

[Kuhn 1994] Jonas Kuhn: Die Behandlung von Funktionsverbgefugen in einem HPSG-basierten Ubersetzungsansatz, ms., (Stuttgart: University of Stuttgart, Institut fur maschinelle Sprachverarbeitung)
1994.
[Van der Laan 1996] Cornelis van der Laan: Entwurf und Implementierung einer FeaturestrukturDatenbank fur TFS; Diplomarbeit (Stuttgart: IMS), Januar, 1996.
[Landheer (Ed.) 1988] Ronald Landheer (Ed.): Aspects de linguistique francaise, Hommage a Q.I.M.
Mok, (Amsterdam: Rodopi) 1988.
[Leech/Wilson 1993] Geo rey Leech, Andrew Wilson: EAGLES Text Corpora Working Group Task 3:
Corpus Annotation Subtask 3.1: Morphosyntactic Annotation Invitation Draft. Lancaster, 1993.
[Lehrberger/Bourbeau 1988] John Lehrberger, Louis Bourbeau: Machine Translation: Linguistic characteristics of MT systems and general methodology of evaluation, (Amsterdam: John Benjamins
Publishing Company) 1988.
[Levin 1993] Beth Levin: English Verb Classes and Alternations { A Preliminary Investigation, The
University of Chicago Press, 1993.
[Linden et al. 1988] Erik-Jan van der Linden, Sjaak Brinkkemper, Koenraad De Smedt, Pauline van
Boven, Mieke van der Linden: \The Representation of Lexical Objects", in: [Magay/Zigany (Ed.)
1988].
[Linden 1994] Krister Linden: Speci cations of the Delis Search Condition Generation tool, Appendix to
Deliverable D-V-1 of Delis (LRE 61.034), Helsinki, April 1994.
[Lindop/Tsujii 1991] Jeremy Lindop, Jun-ichi Tsujii: Complex Transfer in MT: A Survey of Examples,
manuscrit (Manchester: UMIST, Center for Computational Linguistics), no.91/5.
[Luckhardt 1987] Heinz-Dirk Luckhardt: Der Transfer in der maschinellen Sprachubersetzung, (Tubingen, Niemeyer), 1987.
[Ludewig 1995] Petra Ludewig: \Exemplarische Anwendungen des Strukturierungskonzepts", in:
[Hotker/Ludewig (Ed.) 1996]: 108-141.
[Lyons 1980] John Lyons: Semantik, 2 Bde. (Munchen: Verlag C.H. Beck), 1980 [= Beck'sche Elementarbucher].
[Mc Naught 1990] John Mc Naught: \Reusability of Lexical and Terminological Resources: Steps towards
Independence", in: Proceedings of MMT'90, International Symposium on multilingual machine

translation '90, Tokio, 1990.


[Magay/Zigany (Ed.) 1988] Tomas Magay, Judith Zigany (Eds.): BudaLEX '88 Proceedings. Papers from
the 3rd International EURALEX Congress, (Budapest: Akademiai Kiado), 1988.
[Malblanc 1968] Alfred Malblanc: Stylistique comparee du francais et de l'allemand, Paris, 1968.
[Martin/Al 1988] Willy Martin, Bernard P.F. Al: \User-orientation in dictionaries: 9 propositions", in:
[Magay/Zigany (Ed.) 1988].
[Martin 1989] Willy Martin: \Over computationele lexicologie", in: Handelingen van het 40ste Nederlands
Filologencongres, 1989.
[Martin/Woltering 1989] Willy Martin, M. Woltering: Basic Issues in Computational Lexicography. Research paper on the state-of-the-art and the prospects of dictionary technology., ms. (Utrecht: Van
Dale), 1989.
[Martin/Tops (Ed.) 1988)] Willy Martin, G. A. J. Tops: Van Dale groot woordenboek Nederlands/Engels,
Engels/Nederlands, 2 Bde., (Utrecht/Antwerpen: Van Dale), 1986.
[Martin/van der Vliet 1992] Willy Martin, Hennie van der Vliet: Feasibility Study on the Re-usability of
the Van Dale Bilingual Dictionaries, Internal Report, Amsterdam: Vrije Universiteit 1992.
[Mel'cuk 1988] Igor A. Mel'cuk: Dependency Syntax: Theory and Practice; State University of New York
Press, 1988.
[Meder 1990] Gregor Meder: \Zur maschinellen Unterstutzung lexikographischer Arbeiten"; in: HERMES. Tidsskrift for Sprogforskning. Zeitschrift fur Linguistik. 5-1990: 97-111.
[Meder/Dorner 1992] Gregor Meder, Andreas Dorner (Eds.): Worte, Worter, Worterbucher; Lexikographische Beitrage zum Essener Linguistischen Kolloquium, (Tubingen, Niemeyer), 1992.
[Mikkelsen 1991] Hans Kristian Mikkelsen: \What did Scerba actually mean by \active" and \passive"
Dictionaries?", in: [Hyldgaard-Jensen/Zettersten 1991]: 25-40.
[Modiano 1994] Nicole Modiano: \Multilex linguistic Architecture". ms., (Paris: Cap Gemini Innovation),
1994.
[Monachini 1995] Monica Monachini: ELM-IT: An Italian incarnation of the EAGLES-TS De nition of
Lexicon Speci cations and Classi cation Guidelines; internes Dokument, EAGLES, 1995.
[Morik (Ed.) 1987] Katharina Morik (Ed.): GWAI-87, 11th German Workshop on Arti cial Intellingence,
Geseke, September/October 1987, Proceedings, (Berlin/Heidelberg: Springer) 1987 [= Informatik
Fachberichte, No.152].
[Mugdan 1990] Joachim Mugdan: \On the Typology of Bilingual Dictionaries", in: [HyldgaardJensen/Zettersten 1991]; 17-24, 1990.
[Mugdan 1992] Joachim Mugdan: \Zur Typologie zweisprachiger Worterbucher"; in: [Meder/Dorner
1992]: 25-48, 1992.
[Nirenburg (Ed.) 1987] Sergei Nirenburg (Ed.): Machine Translation | Theoretical and methodological
issues, (Cambridge: Cambridge University Press) 1987.
[Nirenburg 1989] Sergei Nirenburg: KBMT-89. Project Report., ms. (Pittsburgh, Pa: Center for Machine
Translation, Carnegie Mellon University) 1989.
[Nirenburg et al. 1992] Sergei Nirenburg, Jaime Carbonell, Masaru Tomita and Kenneth Goodman: Machine Translation: A Knowledge-Based Approach, (San Mateo, California: Morgan Kaufmann) 1992.
[Olivier/Heid 1994] Joel Olivier (Coord.) and Ulrich Heid: Functional speci cations for tool components
of a corpus based lexicographer's workstation: the toolbox: speci cations management tools, deliverable D-V-1 of Delis (LRE 61.034), Paris/Stuttgart, version 3, of April 1994.
[Pollard/Sag 1987] Carl Pollard, Ivan Sag: An Information-based Syntax and Semantics, vol. I, CSLI
lecture notes no. 13, 1987.
[Pollard/Sag 1994] Carl Pollard, Ivan Sag: Head-Driven Phrase Structure Grammar, University of Chicago Press and CSLI Publications, 1994.
[Pustejovsky/Bergler (Ed.) 1991] James Pustejovsky, Sabine Bergler: Lexical Semantics and Knowledge
Representation; First SIGLEX Workshop; Berkeley, CA, USA, June 1991, Proceedings; Springer
Verlag, 1991.
[Radtke 1994] Edgar Radtke: \Buttermilch als U bersetzungsproblem", in: Italienisch { Zeitschrift fur
italienische Sprache und Literatur: 90-94, 1994.
[Rekowski 1995] Ursula von Rekowski: ELM-FR: A typed French incarnation of the EAGLES-TS De nition of Lexical Speci cation and Classi cation Guidelines; internes Dokument, EAGLES, 1995.
[Robert/Collins] Dictionnaire Francais - Anglais, Anglais - Francais (Paris: Dictionnaires Le Robert)
[Robert/Collins-Junior] Dictionnaire Francais - Anglais, Anglais - Francais junior (Paris: Dictionnaires

Le Robert)
[Sachs/Villatte] Sachs & Villatte: Worterbuch Deutsch - Franzosisch, (Munchen: Langenscheidt)
[Sachs/Villatte] Sachs & Villatte: Worterbuch Franzosisch - Deutsch, (Munchen: Langenscheidt)
[Sadler/Schmidt 1992] Louisa Sadler, Paul Schmidt: \Input Paper for Eurotra-6: Monolingual and Bilingual Problems", ms. Eurotra. 1992.
[Sadler/Thompson 1991] Louisa Sadler, Henry S. Thompson: \Structural non-correspondence in translation", in: Proceedings of the Fifth Conference of the European Chapter of the Association for
Computational Linguistics (Berlin): 293-298, 1991.
[Sampson 1995] Geo rey Sampson: English for the Computer; The SUSANNE Corpus and Analytic
Scheme. Clarendon Press, Oxford, 1995.
[San lippo 1993] Antonio San lippo: \LKB Encoding of Lexical Knowledge", in: [Briscoe/de Paiva/Copestake (Eds.) 1993]: 190-222.
[Scerba 1940] Lev V. Scerba: \Versuch einer allgemeinen Theorie der Lexikographie", in: [Wolski 1982]:
17-62.
[Schulze 1994] Bruno Maximilian Schulze: Entwurf und Implementierung eines Anfragesystems fur Textcorpora. Diplomarbeit Nr. 1059, Universitat Stuttgart, Institut fur maschinelle Sprachverarbeitung
(IMS) und Institut fur Informatik, Januar 1994.
[Schumacher 1987] Helmut Schumacher: Valenzbibliographie; Institut fur deutsche Sprache Mannheim,
1987.


[Schwanke 1991] Martina Schwanke: Maschinelle Ubersetzung.
Ein Uberblick
uber Theorie und Praxis
(Berlin: Springer), 1991.
[Schwarze/Wunderlich 1985] Christoph Schwarze, Dieter Wunderlich (Hrsg.): Handbuch der Lexikologie,
Konigstein 1985.
[Schwenger 1995] Sonja Schwenger: Korpusbasierte Erstellung von kontrastiven Lexikoneintragen fur Verben der olfaktiven Wahrnehmung, M.A. thesis, ms. 122 SS, Universitat Stuttgart, Februar 1995.
[Sinclair 1995] John Sinclair: \Corpora as resources for the construction of lexicons", talk presented at
the Escuela Interlatina de Altos Estudios en Lingustica Applicada, (San Millan de la Cogolla,
September 1995)
[Sinclair/Hoelter/Peters (Ed.) 1994] John Sinclair, Martin Hoelter, Carol Peters (Eds.): The Languages of De nition: The Formalisation of Dictionary De nitions for Natural Language Processing
(Brussels: European Commission), 1994 [= Studies in Machine Translation and Natural Language
Processing 7].
[Slocum 1988] Jonathan Slocum (Ed.): Machine Translation Systems (Cambridge: Cambridge University
Press), 1988 [= Studies in Natural Language Processing].
[Somers 1987] Harry L. Somers: Valency and Case in Computational Linguistics (Edinburgh: Edinburgh
University Press), 1987 [= Edinburgh Information Technology Series].
[Spanu et al. 1993] Antonietta Spanu (Coord.), Antonietta Alonge, Gabriel Bes, Anna Braasch, Nicoletta Calzolari, Luca Dini, Martin Emele, Charles Fillmore, Ulrich Heid, Monica Monachini, Nicholas
Ostler, Antje Rossdeutscher, Maurice Vliegen, Annie Zaenen: Some prominent approaches to Syntactic and Lexical-Semantic Modeling for the construction of NLP dictionaries, deliverable D-I-1 of
DELIS (LRE 61.034), nal version of June 9th, 1993.
[Van Sterkenburg/Martin/Al 1982] Piet van Sterkenburg, Willy Martin, Bernard P. F. Al.: \A new
Van Dale project: bilingual dictionaries on one and the same monolingual basis", in: [Goetschalckx/Rolling (Ed.) 1982]: 221-237.
[Van Sterkenburg/Pijnenburg 1984] Piet van Sterkenburg, W.J.J. Pijnenburg: Van Dale groot woordenboek van hedendaags Nederlands, (Utrecht/Antwerpen: Van Dale) 1984.
[Storrer 1992] Angelika Storrer: Verbvalenz { Theoretische und methodische Grundlagen ihrer Beschreibung in Grammatikographie und Lexikographie; Reihe Germanistische Linguistik Band 126, (Tubingen, Niemeyer), 1992.
[Strzalkowski (Ed.) 1994] Tomek Strzalkowski (Ed.): Reversible Grammar in Natural Language Processing; The Kluwer International Series in Engineering and Computer; Kluwer Academic Publishers,
Boston, 1994.
[Teufel 1995a] Simone Teufel: \Abbildung zwischen Corpus-Annotationsschemata zur Unterstutzung von
morphosyntaktischen Standards", in: [Hotker/Ludewig (Ed.) 1996].
[Teufel 1995b] Simone Teufel: ELM-DE: A typed German incarnation of the EAGLES-TS De nition of
Lexical Descriptions and Classi cation Guidelines; internes Dokument, EAGLES, 1995.

[Thurmair 1990] Gregor Thurmair: \Complex Lexical Transfer in METAL", in: [TMIMT-3, 1990]: 91107.
[TMIMT-3, 1990] Proceedings of the 3rd International Conference on Theoretical and Methodological
Issues in Machine Translation of Natural Language, 11-13 June 1990. (Austin: University of Texas)
1990.
[Tucker 1987] Allan B. Tucker: \Current Strategies in Machine Translation Research and Development",
in: [Nirenburg (Ed.) 1987]: 22-41.
[Uszkoreit (Ed.) 1993] Hans Uszkoreit (Ed.): Proceedings of the EAGLES workshop on implemented
formalisms, Saarbrucken DFKI report, 1993.
[Vandooren 1993] Francoise Vandooren: \Divergences de traduction et architectures de transfert", in:
[Bouillon/Clas 1993]: 77-90.
[Verkuyl 1994] Henk Verkuyl: Knowledge Representation in Dictionaries. Presentation at the 6th Euralex
International Congress, Amsterdam 1994, ms.
[Vinay/Darbelnet 1958] Jean-Paul Vinay, Jean Darbelnet: Stylistique comparee du francais et de
l'anglais. Methode de traduction (Paris), 1968.
[Vinay/Darbelnet 1995] Jean-Paul Vinay, Jean Darbelnet: Comparative Stylistics of French and English.
A methodology for translation, (John Benjamins, Amsterdam), Benjamins Translation Library,
Volume 11, 1995.
[Volk 1994] Martin Volk: Einsatz einer Testsatzsammlung im Grammar Enginering, (Tubingen, Niemeyer), 1994. [= Sprache und Information Band 30].
[Vossen/Meijs/den Broeder 1989] Piek Vossen, Willem Meijs, Marianne den Broeder: \Meaning and
structure in dictionary de nitions", in: [Boguraev/Briscoe 1989]: 171-192.
[Voutilainen et al. 1992] Atro Voutilainen, J. Heikkila und A. Anttila: Constraint Grammar of English:
A Performance-Oriented Evaluation. Technischer Bericht, University of Helsinki, Department of
General Linguistics, 1992. Publication No. 21.
[Walker et al. 1995] Donald E. Walker, Antonio Zampolli und Nicoletta Calzolari: Automating the Lexicon. Research and Practice in a Multilingual Environment, (Oxford: Clarendon Press), 1995.
[Weber (Ed.) 1996] Nico Weber (Ed.): Semantik, Lexikographie und Computeranwendungen, (Tubingen:
Niemeyer); 1996 [= Sprache und Information Band 33].
[Weiss/Mattutat] Erwin Weiss, Heinrich Mattutat: Worterbuch Franzosisch { Deutsch, Deutsch {
Franzosisch, (Stuttgart: Klett)
[Wimmer 1983] Christine Wimmer: \Les verbes introducteurs de si interrogatif indirect et la description
lexicographique", in: Travaux de Linguistique et de Litterature 21 (1983): 171-214, 1983.
[Wolski 1982] Werner Wolski: Aspekte der sowjetrussischen Lexikographie, (Tubingen: Niemeyer), 1982
[= Germanistische Linguistik, 43].
[Wotjak (Ed.) 1996] Gerd Wotjak: Akten der III. Internationalen Tagung zum Romanisch-Deutschen
und innerromanischen Sprachvergleich (Leipzig, Oktober 1995), erscheint 1996.
[Zaenen 1988] Annie Zaenen: Lexical Information in LFG, an overview, Stanford: Xerox, ms., 1988.
[Zajac 1989] Remi Zajac. \A transfer model using a Typed Feature Structure rewriting system with
inheritance", in: Proceedings of the 27th Annual Meeting of the Association for Computational
Linguistics, Vancouver, 1989.
[Zajac 1992] Remi Zajac: Inheritance and Constraint-Based Grammar Formalisms. Computational Linguistics, 18(2): 159-180, 1992.
[Zampolli 1994] Antonio Zampolli: \Introduction", in: [Atkins/Zampolli (Ed.) 1994]: 3-15, 1994.

[Zimmer 1990] Rudolf Zimmer: Aquivalenzen
zwischen Franzosisch und Deutsch. Theorie { Korpus {
Indizes. Ein Kontextworterbuch, (Tubingen: Niemeyer) 1990.

Vous aimerez peut-être aussi