30
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22

Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Proseminar Linguistische Annotation

Ines Rehbein und Josef Ruppenhofer

SS 2010

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22

Page 2: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Seminarplan

I. Linguistische Annotation - UberblickI Welche Arten von linguistischer Annotation gibt es?I Wozu sind sie gut?

II. Der AnnotationsprozessI Wie wird annotiert?I Welche Probleme treten dabei auf?I Welche Faktoren konnen die Annotation beeinflussen?

III. Wie gut sind unsere Annotationen?

IV. Wie bekomme ich großere Mengen an annotierten Daten?

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 2 / 22

Page 3: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotation

Hinzufugen von linguistischer Information zu einem KorpusI phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)I Intonation / prosodische Annotation (ToBI/GToBI)I Wortarten-Annotation (POS-Tagging)I Morpho-SyntaxI Syntax (Baumbanken)I Word Senses (WordNet)I Semantische Rollen (Propbank, Framenet, SALSA)I Named Entities (Person, Organisation, Datum, ...)I Temporale Annotation (TimeBank)I Anaphor/Coreference Annotation (TuBa-D/Z, PoCos)I Diskurs (Penn Discourse Treebank, Chinese Discourse Treebank)I Sentiment-AnnotationI Meta-Information (Alter, Herkunft, Geschlecht, ...)I ...

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 3 / 22

Page 4: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - Beispiele

Text

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 4 / 22

Page 5: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - Beispiele

Text + Lemmatisierung

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 5 / 22

Page 6: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - Beispiele

Text + Lemmatisierung +

Part-of-speech (POS) (Wortarten-Tagging)

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 6 / 22

Page 7: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - Beispiele

Text + Lemmatisierung +

Part-of-speech (POS) (Wortarten-Tagging) +

morphologische Information

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 7 / 22

Page 8: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - Beispiele

Text + Lemmatisierung +

Part-of-speech (POS) (Wortarten-Tagging) +

morphologische Information + Kasus

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 8 / 22

Page 9: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - Beispiele

Text + Lemmatisierung +

Part-of-speech (POS) (Wortarten-Tagging) +

morphologische Information + Kasus + Syntax

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 9 / 22

Page 10: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - Beispiele

Text + Lemmatisierung +

Part-of-speech (POS) (Wortarten-Tagging) +

morphologische Information + Kasus + Syntax +

Grammatikalische Funktionen (GF)

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 10 / 22

Page 11: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - Beispiele

Text + Lemmatisierung +

Part-of-speech (POS) (Wortarten-Tagging) +

morphologische Information + Kasus + Syntax +

Grammatikalische Funktionen (GF) + sekundare Kanten

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 11 / 22

Page 12: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - Beispiele

Wozu das Ganze?

I LemmatisierungF

I Part-of-speech (POS) (Wortarten-Tagging)F

I morphologische InformationF

I SyntaxF

I Grammatikalische Funktionen (GF)F

I sekundare KantenF

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 12 / 22

Page 13: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - BeispieleLemmatisierung

I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon

I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)

Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)

morphologische InformationI Bedeutungsdisambiguierung:

(1) Die VortragendenNOM PL

gebenPL

der StudentinDAT SG

das Buch.ACC

(2) Den VortragendenDAT PL

gibtSG

die StudentinNOM SG

das Buch.ACC

SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser

Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB

sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender

Subjekte etc.

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Page 14: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - BeispieleLemmatisierung

I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon

I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)

Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)

morphologische InformationI Bedeutungsdisambiguierung:

(3) Die VortragendenNOM PL

gebenPL

der StudentinDAT SG

das Buch.ACC

(4) Den VortragendenDAT PL

gibtSG

die StudentinNOM SG

das Buch.ACC

SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser

Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB

sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender

Subjekte etc.

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Page 15: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - BeispieleLemmatisierung

I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon

I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)

Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)

morphologische InformationI Bedeutungsdisambiguierung:

(5) Die VortragendenNOM PL

gebenPL

der StudentinDAT SG

das Buch.ACC

(6) Den VortragendenDAT PL

gibtSG

die StudentinNOM SG

das Buch.ACC

SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser

Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB

sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender

Subjekte etc.

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Page 16: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - BeispieleLemmatisierung

I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon

I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)

Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)

morphologische InformationI Bedeutungsdisambiguierung:

(7) Die VortragendenNOM PL

gebenPL

der StudentinDAT SG

das Buch.ACC

(8) Den VortragendenDAT PL

gibtSG

die StudentinNOM SG

das Buch.ACC

SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser

Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB

sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender

Subjekte etc.

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Page 17: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - BeispieleLemmatisierung

I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon

I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)

Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)

morphologische InformationI Bedeutungsdisambiguierung:

(9) Die VortragendenNOM PL

gebenPL

der StudentinDAT SG

das Buch.ACC

(10) Den VortragendenDAT PL

gibtSG

die StudentinNOM SG

das Buch.ACC

SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser

Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB

sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender

Subjekte etc.

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Page 18: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotationen - BeispieleLemmatisierung

I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon

I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)

Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)

morphologische InformationI Bedeutungsdisambiguierung:

(11) Die VortragendenNOM PL

gebenPL

der StudentinDAT SG

das Buch.ACC

(12) Den VortragendenDAT PL

gibtSG

die StudentinNOM SG

das Buch.ACC

SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser

Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB

sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender

Subjekte etc.

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Page 19: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Seminarplan

I. Linguistische Annotation - Wozu?

I mehr Information (erhoht die Interpretierbarkeit eines Korpus)I Untersuchung linguistischer PhanomeneI Uberprufung linguistischer Theorien

F viele linguistische Theorien entstehen aufgrund von Introspektion→ Armchair linguistics

F aber manchmal ubersieht man was...F Uberprufung linguistischer Theorien mit Hilfe von realistischen Daten

Laßt sich meine Theorie anhand der Daten widerlegen?

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 14 / 22

Page 20: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Beispiel I: Partikelverben (Muller & Meurers, 2006)

Theorie: Verbpartikeln konnen nicht vorangestellt werden(Ausnahme: pradikative Partikeln wie auf in aufmachen)

Korpusevidenz:LosPART ging es schon in dieser Woche. (taz, 11.10.1995)VorPART hat er das jedenfalls. (taz, 15.07.1999)

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 15 / 22

Page 21: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Beispiel II: Idiome (Geyken et al., 2004)

Theorie: klassische Ansatze betonen die Invariabilitat von Idiomen(Katz, 1973; Chomsky, 1980)

Korpusevidenz: ein Blatt vor den Mund nehmen

I Pluralisierung:F ohne Blatter vor den Mund zu nehmen

I Quantifizierung:F Hier nahm er manches Blatt vor den MundF der sich 100 Blatter vor den Mund nimmt

I Adjektivische Modifikation eines oder beider Nomen:F mit einem postmodernen Blatt vor dem MundeF kein Blatt vor seinen republikfeindlichen Mund

I Nomen-Modifikation:F ohne das geringste (Klee-)Blatt vor den vorlauten Mund zu nehmen

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 16 / 22

Page 22: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Seminarplan

I. Linguistische Annotation - Wozu?I mehr Information (erhoht die Interpretierbarkeit eines Korpus)I Untersuchung linguistischer PhanomeneI Uberprufung linguistischer TheorienI Ressourcen zum Training von statistischen NLP-Systemen:

F Wortarten-TaggerF Syntaktische ParserF Semantische Parser / Labelling von Semantischen RollenF Systeme zur Lesarten-DisambiguierungF Anaphern-AuflosungF Maschinelles UbersetzenF Automatische SpracherkennungF ...

I Linguistisch annotierte Daten zur Evaluation von NLP-Systemen(Goldstandard)

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 17 / 22

Page 23: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotation

erhoht die Interpretierbarkeit eines Korpus

zeitaufwandig!

1 StandardisierungI Standards erhohen Konsistenz und VerwendungsbreiteI ermoglichen den Austausch von Daten

F EAGLES (Expert Advisory Group on Language Engineering Standards)F TEI (Text Encoding Initiative)F GrAF (A Graph-based Format for Linguistic Annotations)F ...

2 InteroperabilitatI z.B. die Ubertragung von vorhandenen Annotationsschemata auf neue

Sprachen Penn Chinese Treebank , Penn Arabic Treebank

I oder die Kombination verschiedener Annotationsebenen in eine vereinteReprasentation (z.B. Propbank + Nombank + TimeBank + PennDiscourse treebank + Coreference) XBank Browser

Aber: bevor man Annotationsschemata vereint oder ubertragtI Was sind die Vor- und Nachteile verschiedener Annotationsschemata?I Wie vergleicht man Annotationsschemata?

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22

Page 24: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotation

erhoht die Interpretierbarkeit eines Korpus

zeitaufwandig!

1 StandardisierungI Standards erhohen Konsistenz und VerwendungsbreiteI ermoglichen den Austausch von Daten

F EAGLES (Expert Advisory Group on Language Engineering Standards)F TEI (Text Encoding Initiative)F GrAF (A Graph-based Format for Linguistic Annotations)F ...

2 InteroperabilitatI z.B. die Ubertragung von vorhandenen Annotationsschemata auf neue

Sprachen Penn Chinese Treebank , Penn Arabic Treebank

I oder die Kombination verschiedener Annotationsebenen in eine vereinteReprasentation (z.B. Propbank + Nombank + TimeBank + PennDiscourse treebank + Coreference) XBank Browser

Aber: bevor man Annotationsschemata vereint oder ubertragtI Was sind die Vor- und Nachteile verschiedener Annotationsschemata?I Wie vergleicht man Annotationsschemata?

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22

Page 25: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotation

erhoht die Interpretierbarkeit eines Korpus

zeitaufwandig!

1 StandardisierungI Standards erhohen Konsistenz und VerwendungsbreiteI ermoglichen den Austausch von Daten

F EAGLES (Expert Advisory Group on Language Engineering Standards)F TEI (Text Encoding Initiative)F GrAF (A Graph-based Format for Linguistic Annotations)F ...

2 InteroperabilitatI z.B. die Ubertragung von vorhandenen Annotationsschemata auf neue

Sprachen Penn Chinese Treebank , Penn Arabic Treebank

I oder die Kombination verschiedener Annotationsebenen in eine vereinteReprasentation (z.B. Propbank + Nombank + TimeBank + PennDiscourse treebank + Coreference) XBank Browser

Aber: bevor man Annotationsschemata vereint oder ubertragtI Was sind die Vor- und Nachteile verschiedener Annotationsschemata?I Wie vergleicht man Annotationsschemata?

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22

Page 26: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Linguistische Annotation

erhoht die Interpretierbarkeit eines Korpus

zeitaufwandig!

1 StandardisierungI Standards erhohen Konsistenz und VerwendungsbreiteI ermoglichen den Austausch von Daten

F EAGLES (Expert Advisory Group on Language Engineering Standards)F TEI (Text Encoding Initiative)F GrAF (A Graph-based Format for Linguistic Annotations)F ...

2 InteroperabilitatI z.B. die Ubertragung von vorhandenen Annotationsschemata auf neue

Sprachen Penn Chinese Treebank , Penn Arabic Treebank

I oder die Kombination verschiedener Annotationsebenen in eine vereinteReprasentation (z.B. Propbank + Nombank + TimeBank + PennDiscourse treebank + Coreference) XBank Browser

Aber: bevor man Annotationsschemata vereint oder ubertragtI Was sind die Vor- und Nachteile verschiedener Annotationsschemata?I Wie vergleicht man Annotationsschemata?

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22

Page 27: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Seminarplan

II. Der AnnotationsprozessI Wie wird annotiert?

F Erstellung von AnnotationsrichtlinienF TrainingF AnnotationsprozessF Qualitatssicherung

I Welche Probleme treten dabei auf?I Welche Faktoren konnen die Annotation beeinflussen?

F Annotations-ToolsF RichtlinienF personliche Eignung und Neigung der Annotator/innen

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 19 / 22

Page 28: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Seminarplan

III. Evaluation - Wie gut sind unsere Annotationen?I Evaluation gegen einen manuell annotierten GoldstandardI Inter-Annotator AgreementI Einsatz der Daten als Trainingsset fur Systeme der automatischen

Sprachverarbeitung (Task-based evaluation)

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 20 / 22

Page 29: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Seminarplan

IV. Wie bekomme ich große Mengen an annotierten Daten?I Halb-automatische AnnotationI BootstrappingI Active LearningI Games with a Purpose (z.B. ESP-Game)I kollaborativ erstellte Ressourcen wie WikipediaI ...

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 21 / 22

Page 30: Proseminar Linguistische Annotation · Linguistische Annotation Hinzufugen von linguistischer Information zu einem Korpus I phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)

Seminarplan

I. Linguistische Annotation - UberblickI Welche Arten von linguistischer Annotation gibt es?I Wozu sind sie gut?

II. Der AnnotationsprozessI Wie wird annotiert?I Welche Probleme treten dabei auf?I Welche Faktoren konnen die Annotation beeinflussen?

III. Wie gut sind unsere Annotationen?

IV. Wie bekomme ich großere Mengen an annotierten Daten?

Leistungsnachweis:I 5 LeistungspunkteI Schein fur Hausarbeit + VortragI Beteiligung an kleinen praktischen Ubungen

Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 22 / 22