Académique Documents
Professionnel Documents
Culture Documents
Praxis
Literatur
29.5.2014
1/31
M. Siemund
Theorie
Praxis
Literatur
du bist am Start
2/31
M. Siemund
Theorie
Praxis
Literatur
Inhaltsverzeichnis
3/31
Theorie
Annotation von Wortarten
Ziel
Praxis
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Literatur
M. Siemund
Theorie
Praxis
Literatur
4/31
M. Siemund
Theorie
Praxis
Literatur
5/31
M. Siemund
Theorie
Praxis
Literatur
6/31
M. Siemund
Theorie
Praxis
Literatur
Ziel
7/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Vorgehen
8/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
9/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
BeMaTaC
Berlin Map Task Corpus
ein multimodales Korpus
gesprochener Sprache
besteht aus Audio- und
Videoaufnahmen von Dialogen,
die auf einer Map Task basieren
Anzahl der Tokens:
L1-Subkorpus 17.047 Tokens
10/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
KiDKo
KiezDeutsch-Korpus
ist ein Korpus gesprochener Sprache, das aus
Selbstaufnahmen von Jugendlichen aus Berlin-Kreuzberg und
-Hellersdorf besteht.
enthalt mehrere Annotationsebenen, darunter:
Transkriptionsebene - wie gesprochen mit GAT
(Gesprachsanalytisches Transkriptionssystem)
orthographische Normalisierung (mit Interpunktion)
PoS
Auerungsannotation
11/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
KiDKo
Relevanz:
Erweiterung STTS f
ur gesprochene Sprache: Einf
uhrung neuer
Tags
TreeTagger-Training mit erweitertem Tagset und kleiner
Tokenanzahl (20.000)
12/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
TreeTagger
13/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Aufgetretene Probleme
14/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Arbeitsebenen
15/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Ergebnisse
1.0
0.973
0.8
0.895
0.875
0.739
0.6
0.704
0.206
0.0
0.2
Genauigkeit norm-Ebene:
89.5%
Genauigkeit dipl-Ebene:
70.4%
0.4
norm
16/31
M. Siemund
dipl
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Datenanalyse
Fehlerklassifikation:
WSF: Wortstellungsfehler dann legen wir mal los mit der als ADJA statt PTKVZ
FT: fehlendes Tag ahm, okay
FTK: fehlendes Tag bei Klitika gehste, son
OF: Orthographiefehler ich geh hier lang
IPF: Interpunktionsfehler - Fehler w
urde mit Interpunktion
vermutlich nicht auftauchen.
AF: Ambige Falle nee warte mal VVFIN oder VVIMP
SF: sonstige Fehler
17/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Fehlerverteilung
0.4
Fehlerverteilung norm-Ebene
0.39
0.2
0.3
0.32
0.14
0.1
0.09
0.06
0.0
18/31
0.01
0
WSF
FT
FTK
M. Siemund
IPF
OF
AF
SF
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Fehlerverteilung
Fehlerverteilung dipl-Ebene
0.4
0.4
0.2
0.3
0.37
0.1
0.09
0.07
0.0
0.05
WSF
19/31
FT
FTK
M. Siemund
IPF
OF
AF
SF
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Fehler im BeMaTaC
skip
20/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
21/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
21/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Losung:
neues Tagset definieren und darauf trainieren
Tags f
ur Klitika
gehste - VVFINPPER (Klitikum aus finitem Vollverb und
Personalpronomen)
son - ADVART (Klitikum aus Adverb und Artikel)
22/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Orthographiefehler - 37.0%
23/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Interpunktionsfehler - 6.6%
24/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
25/31
M. Siemund
Theorie
Praxis
Literatur
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung
Zusammenfassung
26/31
M. Siemund
Theorie
Praxis
Literatur
Literatur I
Anderson, A., Bader, M., Bard, G., Boyle, E., Doherty, G.,
Garrod, S., Isard, S., Kowtko, J., McAllister, J., Miller, J.,
Sotillo, C., Thompson, H., Weinert, R. (1991): The HCRC
Map Task Corpus. In: Language and Speech 34, 351-366.
Booij G. E., Lehman, C., Mugdan, J. (Hg.) (2000):
Morphologie / Morphology. Ein internationales Handbuch zur
Flexion und Wortbildung / An International Handbook on
Inflection and Word- Formation. Berlin/Boston (de Gruyter).
Brinckmann, C., Kleiner, S., Kn
obl, R., Berend, N. (2008):
German Today: an areally extensive corpus of spoken Standard
German. In: Proceedings 6th International Conference on
Language Resources and Evaluation. LREC 2008
27/31
M. Siemund
Theorie
Praxis
Literatur
Literatur II
Kaltz, B. (2000): Wortartensysteme in der Linguistik. In: Booij
G. E. et al. (Hg.) (2000), 693-707.
Knobloch, C. (2000): Kriterien f
ur die Definition von
Wortarten. In: Booij G. E. et al. (Hg.) (2000), 674-692.
Rehbein, I., Schalowski, S. (2013): STTS goes Kiez 2013
Experiments on Annotating and Tagging Urban Youth
Language. In: Zinsmeister, H. et al. (Eds.) (2013), 199-227.
Sauer, S., Rasskazova, O. (2014): BeMaTaC 2013 eine digitale
multimodale Ressource f
ur Sprach- und Dialogforschung.
Workshop Grenzen u
berschreiten 2013 Digitale
Geisteswissenschaft heute und morgen, Digital Humanities
Berlin 2014.
28/31
M. Siemund
Theorie
Praxis
Literatur
Literatur III
Schiller, A., Teufel, S., Thielen, C. (1999): Guidelines f
ur das
Tagging deutscher Textkorpora mit STTS, (Kleines und groes
Tagset). Universitat Stuttgart, Universitat T
ubingen.
Schmid, H. (1994): Probabilistic part-of-speech tagging using
decision trees. In: Proceedings of the International Conference
on New Methods in Language Processing, Manchester, UK.
Schmidt, T., Worner, K. (2009): EXMARaLDA 2013 Creating,
analysing and sharing spoken language corpora for pragmatic
research. In: Pragmatics (19:4), 565-582.
Steiner, P. (2004): Wortarten und Korpus. Automatische
Wortartenklassifikation durch distributionelle und quantitative
Verfahren. Aachen (Shaker Verlag).
29/31
M. Siemund
Theorie
Praxis
Literatur
Literatur IV
30/31
M. Siemund
Theorie
Praxis
Literatur
Vielen Dank f
ur Eure Aufmerksamkeit!
Besonderer Dank geht an:
Dr. Felix Golcher
Mark Daniel Maske
Oxana Rasskazova
Prof. Helmut Schmid
Simon Sauer
Johann Sell
Florian Zipser
31/31
M. Siemund