Vortrag Zum PoS-Tagging in Gesprochener Sprache Am Beispiel BeMaTaC

Theorie
Praxis
Literatur
du bist am Start das ist gut

PoS-Tagging in gesprochener Sprache - am Beispiel BeMaTaC
Melanie Siemund, Humboldt-Universitat zu Berlin

in Zusammenarbeit mit M. D. M
aske, O. Rasskazova und J. Sell
29.5.2014
1/31
M. Siemund
Theorie
Praxis
Literatur
du bist am Start
2/31
M. Siemund
Theorie
Praxis
Literatur
Inhaltsverzeichnis
3/31
Theorie
Annotation von Wortarten
Ziel
Praxis
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Literatur
M. Siemund
Theorie
Praxis
Literatur

Ziel
PoS-Tagging: Jedem Token wird automatisch durch einen

Tagger eine Wortart zugewiesen.
Diese Wortarten sind in einem Tagset hinterlegt.
Tagging von Standardsprache hat eine Genauigkeit von 95%
(Schmidt (1994)).
Was passiert, wenn wir ein Korpus gesprochener Sprache
haben?
4/31
M. Siemund
Theorie
Praxis
Literatur

Ziel
Annotation von Wortarten in gesprochener Sprache
Gesprochene Sprache zeigt h

ohere Variation in grammatischen
Regeln, Aussprache und Lexikonauswahl:
Jo gehste grad nach links oder wat?
Dialogsituation erzeugt viele sprachliche Phanomene, die in

geschriebener Sprache nicht vorkommen:
ahm, aha, mhm, hmm usw.
Wie geht man damit um?
5/31
M. Siemund
Theorie
Praxis
Literatur

Ziel
Annotation von Wortarten in gesprochener Sprache
Bisher werden nicht standardisierte Texte normalisiert:

Ja, gehst du gerade nach links oder was?
Automatisches PoS-Tagging wird auf diese normalisierten

Ebene ausgef
uhrt.
Dabei entsteht die Frage: Was untersuchen wir dann?
Bisher existiert kein PoS-Tagger, der auf gesprochene Daten
trainiert wurde und deren Varietaten umfasst.
6/31
M. Siemund
Theorie
Praxis
Literatur

Ziel
Ziel
Es soll ein Part-of-Speech-Tagger f

ur gesprochene Sprache
entworfen werden. Das heit, es soll ein Tagger bzw. Tagset so
erweitert werden, dass der Tagger mit realen Sprachdaten arbeiten
kann.
7/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Vorgehen
Um den Tagger auf Sprachdaten anwenden zu konnen, haben

wir
u
uft, wie der PoS-Tagger auf diesen Daten arbeitet,
berpr
auftretende Fehler klassifiziert,
anhand der Fehler einen Entwurf f
ur ein neues PoS-Tagset
aufgestellt,
daf
ur bereits vorhandene Ansatze betrachtet (Rehbein &
Schalowski (2013), ...)
8/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Was wird genutzt?
Korpus gesprochener Sprache: BeMaTaC (Berlin Map Task

Corpus)
Annotationstools: Praat und EXMARaLDA
PoS-Tagset: STTS (Stuttgart/T
ubingen Tag Set),
Erweiterung des STTS von KiDKo (KiezDeutsch-Korpus)
PoS-Tagger: TreeTagger
optimiert f
ur Deutsch
optimiert f
ur kleine Korpora
Vergleichbarkeit (BeMaTaC wird auch bisher mit dem
TreeTagger getaggt)
9/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
BeMaTaC
Berlin Map Task Corpus
ein multimodales Korpus
gesprochener Sprache
besteht aus Audio- und
Videoaufnahmen von Dialogen,
die auf einer Map Task basieren
Anzahl der Tokens:
L1-Subkorpus 17.047 Tokens
10/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
KiDKo
KiezDeutsch-Korpus
ist ein Korpus gesprochener Sprache, das aus
Selbstaufnahmen von Jugendlichen aus Berlin-Kreuzberg und
-Hellersdorf besteht.
enthalt mehrere Annotationsebenen, darunter:
Transkriptionsebene - wie gesprochen mit GAT
(Gesprachsanalytisches Transkriptionssystem)
orthographische Normalisierung (mit Interpunktion)
PoS
Auerungsannotation
11/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
KiDKo
Relevanz:
Erweiterung STTS f
ur gesprochene Sprache: Einf
uhrung neuer
Tags
TreeTagger-Training mit erweitertem Tagset und kleiner
Tokenanzahl (20.000)
Leider: Korpus ist noch nicht frei verf

ugbar
12/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
TreeTagger
probabilistischer PoS-Tagger, welcher mittels Hidden Markov

Models (HMM) arbeitet
auf ein Trainingskorpus trainiert, daraus werden gebildet:
Entscheidungsbaum: Wie wahrscheinlich ist ein Wortartentag
basierend auf den vorherigen Tags?
verschiedene Lexika:
Full-Form-Lexikon: relative Wahrscheinlichkeit eines Tags,
berechnet aus der Frequenz im Trainingskorpus
Pr
afix/Suffix-Lexikon: Wahrscheinlichkeit eines Tokens,
bestimmt durch das jeweilige Pr
afix und Suffix
13/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Aufgetretene Probleme
Was ist ein Fehler?

z.B. ja als PTKANT oder ADV
okay als ADV oder ???
Um Fehler zu taggen und sie zu korrigieren, wurden mehrere

neue Arbeitsebenen eingef
uhrt:
14/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Arbeitsebenen
15/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Ergebnisse
1.0
0.973
0.8
0.895
0.875
0.739
0.6
0.704
0.206
0.0
0.2
Genauigkeit norm-Ebene:
89.5%
Genauigkeit dipl-Ebene:
70.4%
Varianz der Accurancy
0.4
Es wurden 6509 Tokens

bearbeitet (6 Gesprache, je 4
Ebenen).
Statistik:
norm
16/31
M. Siemund
dipl
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Datenanalyse
Fehlerklassifikation:
WSF: Wortstellungsfehler dann legen wir mal los mit der als ADJA statt PTKVZ
FT: fehlendes Tag ahm, okay
FTK: fehlendes Tag bei Klitika gehste, son
OF: Orthographiefehler ich geh hier lang
IPF: Interpunktionsfehler - Fehler w
urde mit Interpunktion
vermutlich nicht auftauchen.
AF: Ambige Falle nee warte mal VVFIN oder VVIMP
SF: sonstige Fehler
17/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Fehlerverteilung
0.4
Fehlerverteilung norm-Ebene
0.39
0.2
0.3
0.32
0.14
0.1
0.09
0.06
0.0
18/31
0.01
0
WSF
FT
FTK
M. Siemund
IPF
OF
AF
SF
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Fehlerverteilung
Fehlerverteilung dipl-Ebene
0.4
0.4
0.2
0.3
0.37
0.1
0.09
0.07
0.0
0.05
WSF
19/31
FT
FTK
M. Siemund
IPF
OF
AF
SF
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Fehler im BeMaTaC
skip
20/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Fehlendes Tag - 38.3%
Sowohl nicht trainierte W

orter mit vorhandenem Tag als auch
neue Tags
Was fehlt? okay, ahm, ah, Abbr
uche, unverstandliches
Material
Losung: neues Tagset definieren und darauf trainieren
Schwierigkeit: Definition der Wortarten
aus KiDKo u
bernommen:
XYB - Abbr
uche (Wohn/)
XYU - unverstandliches Material (?)
21/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Fehlendes Tag - 38.3%
Sowohl nicht trainierte W

orter mit vorhandenem Tag als auch
neue Tags
Was fehlt? okay, ahm, ah, Abbr
uche, unverstandliches
Material
Losung: neues Tagset definieren und darauf trainieren
Schwierigkeit: Definition der Wortarten
aus KiDKo u
bernommen:
XYB - Abbr
uche (Wohn/)
XYU - unverstandliches Material (?)
21/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Fehlendes Tag Klitikum - 8.3%
Losung:
neues Tagset definieren und darauf trainieren
Tags f
ur Klitika
gehste - VVFINPPER (Klitikum aus finitem Vollverb und
Personalpronomen)
son - ADVART (Klitikum aus Adverb und Artikel)
erfordert weitere Untersuchung dieser Falle
22/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Orthographiefehler - 37.0%
Losung: Endung orthographisch kennzeichnen (Apostroph?)

unklar:
Kann der TreeTagger orthographische Kennzeichnung
bearbeiten?
gerade: Standardaussprache weicht von Schreibweise per se ab,
wie transkribiert man?
Wie geht man mit h
oherer Variation um? nein, nee, ne,
no usw. - Normalisierung?
23/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Interpunktionsfehler - 6.6%
Wenn Fehler auf Transkriptions- und normalisierter Ebene

auftauchen
Losung: Interpunktion annotieren und damit trainieren (vgl.
KiDKo)
unklar:
eigentlich bereits Normalisierung
Werden damit alle Fehler vermieden?
24/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Diskussion der statistischen Ergebnisse
Transkriptionsrichtlinien verbessern: Unterscheidung von

phonetischen und konzeptionellen Besonderheiten
Tagerweiterung: nicht trainierte W
orter und neue Tags
konsistentes Tagset
25/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Zusammenfassung
Wortartenbestimmung bedarf weiterer Recherche.

Einzelfalle bed
urfen genauer Untersuchung.
Losungsmoglichkeiten m
ussen erst verifiziert werden.
Vorgehensweise verbessern: Inter-Annotator-Agreement und
manuelle Annotation ohne den Tagger zuvor ausgef
uhrt zu
haben.
26/31
M. Siemund
Theorie
Praxis
Literatur
Literatur I
Anderson, A., Bader, M., Bard, G., Boyle, E., Doherty, G.,
Garrod, S., Isard, S., Kowtko, J., McAllister, J., Miller, J.,
Sotillo, C., Thompson, H., Weinert, R. (1991): The HCRC
Map Task Corpus. In: Language and Speech 34, 351-366.
Booij G. E., Lehman, C., Mugdan, J. (Hg.) (2000):
Morphologie / Morphology. Ein internationales Handbuch zur
Flexion und Wortbildung / An International Handbook on
Inflection and Word- Formation. Berlin/Boston (de Gruyter).
Brinckmann, C., Kleiner, S., Kn
obl, R., Berend, N. (2008):
German Today: an areally extensive corpus of spoken Standard
German. In: Proceedings 6th International Conference on
Language Resources and Evaluation. LREC 2008
27/31
M. Siemund
Theorie
Praxis
Literatur
Literatur II
Kaltz, B. (2000): Wortartensysteme in der Linguistik. In: Booij
G. E. et al. (Hg.) (2000), 693-707.
Knobloch, C. (2000): Kriterien f
ur die Definition von
Wortarten. In: Booij G. E. et al. (Hg.) (2000), 674-692.
Rehbein, I., Schalowski, S. (2013): STTS goes Kiez 2013
Experiments on Annotating and Tagging Urban Youth
Language. In: Zinsmeister, H. et al. (Eds.) (2013), 199-227.
Sauer, S., Rasskazova, O. (2014): BeMaTaC 2013 eine digitale
multimodale Ressource f
ur Sprach- und Dialogforschung.
Workshop Grenzen u
berschreiten 2013 Digitale
Geisteswissenschaft heute und morgen, Digital Humanities
Berlin 2014.
28/31
M. Siemund
Theorie
Praxis
Literatur
Literatur III
Schiller, A., Teufel, S., Thielen, C. (1999): Guidelines f
ur das
Tagging deutscher Textkorpora mit STTS, (Kleines und groes
Tagset). Universitat Stuttgart, Universitat T
ubingen.
Schmid, H. (1994): Probabilistic part-of-speech tagging using
decision trees. In: Proceedings of the International Conference
on New Methods in Language Processing, Manchester, UK.
Schmidt, T., Worner, K. (2009): EXMARaLDA 2013 Creating,
analysing and sharing spoken language corpora for pragmatic
research. In: Pragmatics (19:4), 565-582.
Steiner, P. (2004): Wortarten und Korpus. Automatische
Wortartenklassifikation durch distributionelle und quantitative
Verfahren. Aachen (Shaker Verlag).
29/31
M. Siemund
Theorie
Praxis
Literatur
Literatur IV
Zinsmeister, H., Heid, U., Beck, K. (Eds.) (2013): Das

Stuttgart-T
ubingen Wortarten- Tagset 2013 Stand und
Perspektiven. Journal for Language Technology and
Computational Linguistics 28/1.
30/31
M. Siemund
Theorie
Praxis
Literatur
Vielen Dank f
ur Eure Aufmerksamkeit!
Besonderer Dank geht an:
Dr. Felix Golcher
Mark Daniel Maske
Oxana Rasskazova
Prof. Helmut Schmid
Simon Sauer
Johann Sell
Florian Zipser
31/31
M. Siemund

Vortrag Zum PoS-Tagging in Gesprochener Sprache Am Beispiel BeMaTaC

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Vortrag Zum PoS-Tagging in Gesprochener Sprache Am Beispiel BeMaTaC

Transféré par

Droits d'auteur :

Formats disponibles

Theorie

du bist am Start das ist gut

Melanie Siemund, Humboldt-Universitat zu Berlin

du bist am Start das ist gut

du bist am Start das ist gut

du bist am Start das ist gut

Annotation von Wortarten

Annotation von Wortarten

PoS-Tagging: Jedem Token wird automatisch durch einen

du bist am Start das ist gut

Annotation von Wortarten

Annotation von Wortarten in gesprochener Sprache

Gesprochene Sprache zeigt h

Dialogsituation erzeugt viele sprachliche Phanomene, die in

Wie geht man damit um?

du bist am Start das ist gut

Annotation von Wortarten

Annotation von Wortarten in gesprochener Sprache

Bisher werden nicht standardisierte Texte normalisiert:

Automatisches PoS-Tagging wird auf diese normalisierten

du bist am Start das ist gut

Annotation von Wortarten

Es soll ein Part-of-Speech-Tagger f

du bist am Start das ist gut

Um den Tagger auf Sprachdaten anwenden zu konnen, haben

du bist am Start das ist gut

Was wird genutzt?

Korpus gesprochener Sprache: BeMaTaC (Berlin Map Task

du bist am Start das ist gut

du bist am Start das ist gut

du bist am Start das ist gut

Leider: Korpus ist noch nicht frei verf

du bist am Start das ist gut

probabilistischer PoS-Tagger, welcher mittels Hidden Markov

du bist am Start das ist gut

Was ist ein Fehler?

Um Fehler zu taggen und sie zu korrigieren, wurden mehrere

du bist am Start das ist gut

du bist am Start das ist gut

Varianz der Accurancy

Es wurden 6509 Tokens

du bist am Start das ist gut

du bist am Start das ist gut

du bist am Start das ist gut

du bist am Start das ist gut

du bist am Start das ist gut

Fehlendes Tag - 38.3%

Sowohl nicht trainierte W

du bist am Start das ist gut

Fehlendes Tag - 38.3%

Sowohl nicht trainierte W

du bist am Start das ist gut

Fehlendes Tag Klitikum - 8.3%

erfordert weitere Untersuchung dieser Falle

du bist am Start das ist gut

Losung: Endung orthographisch kennzeichnen (Apostroph?)

du bist am Start das ist gut

Wenn Fehler auf Transkriptions- und normalisierter Ebene

du bist am Start das ist gut

Diskussion der statistischen Ergebnisse

Transkriptionsrichtlinien verbessern: Unterscheidung von

du bist am Start das ist gut

Wortartenbestimmung bedarf weiterer Recherche.