of 40/40
Bochumer Linguistische Arbeitsberichte 15 Guidelines für die Normalisierung historischer deutscher Texte Guidelines for Normalizing Historical German Texts Julia Krasselt, Marcel Bollmann, Stefanie Dipper, Florian Petran

Bochumer Linguistische Arbeitsberichte 15 · PDF fileBochumer Linguistische Arbeitsberichte 15 Guidelines für die Normalisierung historischer deutscher Texte Guidelines for Normalizing

  • View
    223

  • Download
    2

Embed Size (px)

Text of Bochumer Linguistische Arbeitsberichte 15 · PDF fileBochumer Linguistische Arbeitsberichte 15...

  • BochumerLinguistische

    Arbeitsberichte15

    Guidelines fr die Normalisierung historischer deutscher TexteGuidelines for Normalizing Historical German Texts

    Julia Krasselt, Marcel Bollmann, Stefanie Dipper,Florian Petran

  • Bochumer LinguistischeArbeitsberichte

    Herausgeberin: Stefanie Dipper

    Die online publizierte Reihe Bochumer Linguistische Arbeitsberichte (BLA)gibt in unregelmigen Abstnden Forschungsberichte, Abschluss- oder sonstigeArbeiten der Bochumer Linguistik heraus, die einfach und schnell der ffentlich-keit zugnglich gemacht werden sollen. Sie knnen zu einem spteren Zeitpunkt aneinem anderen Publikationsort erscheinen. Der thematische Schwerpunkt der Rei-he liegt auf Arbeiten aus den Bereichen der Computerlinguistik, der allgemeinenund theoretischen Sprachwissenschaft und der Psycholinguistik.

    The online publication series Bochumer Linguistische Arbeitsberichte (BLA)releases at irregular intervals research reports, theses, and various other academicworks from the Bochum Linguistics Department, which are to be made easilyand promptly available for the public. At a later stage, they can also be publishedby other publishing companies. The thematic focus of the series lies on worksfrom the fields of computational linguistics, general and theoretical linguistics,and psycholinguistics.

    c Das Copyright verbleibt beim Autor.

    Band 15 (April 2015)

    Herausgeberin: Stefanie DipperSprachwissenschaftliches InstitutRuhr-Universitt BochumUniversittsstr. 15044801 Bochum

    Erscheinungsjahr 2015ISSN 2190-0949

  • Julia Krasselt, Marcel Bollmann, Stefanie Dipper,Florian Petran

    Guidelines fr die Normalisierunghistorischer deutscher Texte

    Guidelines for Normalizing HistoricalGerman Texts

    2015

    Bochumer Linguistische Arbeitsberichte

    (BLA 15)

  • Inhaltsverzeichnis

    I Guidelines (DE) 4

    1 Einleitung 4

    2 Guidelines 52.1 Allgemeiner Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Spalte Norm: Normalisierung . . . . . . . . . . . . . . . . . . . . . . 52.3 Spalte Mod: Modernisierung . . . . . . . . . . . . . . . . . . . . . . 6

    2.3.1 Abweichungen in der Bedeutung (sem) . . . . . . . . . . . . . 72.3.2 Abweichungen in der Flexion (infl) . . . . . . . . . . . . . . . 82.3.3 Extinkte Wortformen (ext) . . . . . . . . . . . . . . . . . . . 12

    2.4 Kontextabhngige Normalisierung . . . . . . . . . . . . . . . . . . . 14

    II Guidelines (EN) 16

    1 Introduction 16

    2 Guidelines 172.1 General Description . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 The Norm Column: Normalization . . . . . . . . . . . . . . . . . . . 172.3 The Mod Column: Modernization . . . . . . . . . . . . . . . . . . . . 18

    2.3.1 Semantic Divergence (sem) . . . . . . . . . . . . . . . . . . . 182.3.2 Inflectional Variation (infl) . . . . . . . . . . . . . . . . . . . 19

    2.4 Extinct Word Forms (ext) . . . . . . . . . . . . . . . . . . . . . . . . 242.5 Context-Dependent Normalization . . . . . . . . . . . . . . . . . . . 25

    Literatur 26

    Appendizes: Beispiele Appendices: Examples 27

    A Flle ohne weitere Anpassung Normal Cases 27

    B Semantik-Anpassungen Semantic Adjustments 30

    C Flexionsanpassungen Inflectional Adjustments 33

    D Extinkte Wortformen Extinct Word Forms 36

    3

  • Teil IGuidelines (DE)

    1 Einleitung

    Historische Sprachdaten des Deutschen zeichnen sich durch einen hohen Grad an Varia-tion aus, die insbesondere die Ebenen Phonologie und Graphematik betrifft, aber auch inden Bereichen Morphologie, Syntax und Lexik zu beobachten ist.1 Diese Variation ergibtsich vor allem daraus, dass das Deutsche in den historisch belegten Sprachstufen Alt-hochdeutsch (AHD), Mittelhochdeutsch (MHD) und Frhneuhochdeutsch (FNHD) nichtber eine allgemein verbindliche, bergeordnete Standardsprache verfgte, sondern voneiner hohen dialektalen Diversivitt geprgt war.

    Insbesondere die Variation in Phonologie und Graphematik stellt ein enormes Hin-dernis bei der automatischen Verarbeitung solcher Daten dar. Existierende Tools, bei-spielsweise im Bereich der automatischen Wortart-Annotation, sind auf Daten desgegenwrtigen Standarddeutsch trainiert und knnen dementsprechend gar nicht odernur bedingt auf Daten lterer Sprachstufen angewandt werden. Auch die Suche nachspezifischen Daten aus einem historischen Korpus wird durch den hohen Grad an Varia-bilitt erschwert, da einzelne Wortformen nicht gezielt abgefragt werden knnen, ohnebeispielsweise alle potentiell mglichen Schreibweisen zu kennen. Eine automatischeLemmatisierung aller Wortformen ist ebenfalls deutlich erschwert.

    Um solche Daten dennoch automatisch analysierbar und abfragbar zu machen,ist es sinnvoll, die historischen Wortformen auf einheitliche Entsprechungen abzu-bilden, d.h. zu normalisieren. Als Referenz fr diese Entsprechungen kann das mo-derne Standarddeutsch bzw. ein entsprechendes Wrterbuch dienen, z.B. der Duden(http://www.duden.de/woerterbuch). Eine Normalisierung auf das moderneStandarddeutsch ist insbesondere dann sinnvoll, wenn eine Anwendung bestehenderSprachverarbeitungstools geplant ist. Selbstverstndlich ist aber beispielsweise aucheine Abbildung auf eine frhere Sprachstufe denkbar (bspw. bei einem mhd. Korpus,das auf ein vereinheitlichtes MHD abgebildet werden soll). Entscheidend ist, dass eineklar definierte Referenz zur Verfgung steht. Im Falle des MHD kann das beispielweiseein Referenzwrterbuch wie der Lexer (http://woerterbuchnetz.de/Lexer)sein.

    Im folgenden Artikel werden Guidelines vorgestellt, mit dessen Hilfe historischedeutsche Sprachdaten manuell normalisiert werden knnen. Dazu werden alle Wort-formen auf ein modernes, standardsprachliches quivalent abgebildet. Die Guidelinessind im Rahmen des Projektes St. Anselmi Fragen an Maria. (Digitale) Erschlieung,

    1Wir danken Simone Schultz-Balluff, Malin Frey, Julika Nelken, Cornelia Johnen, Maurice Spengler, Katharina Bort,Nadine Lordick und Maria Anselm fr die manuelle Normalisierung der Daten und ihre wertvollen Kommentare bei derErstellung dieser Guidelines.

    4

  • Auswertung und Edition der gesamten deutschsprachigen berlieferung (14.16. Jahr-hundert)2 entstanden (beschrieben bspw. in Schultz-Balluff and Dipper (2013)). Alleverwendeten Textbeispiele stammen aus dem Korpus, das in diesem Projekt erstelltwurde. Im Rahmen dieses Projektes wurden die manuell normalisierten Texte des Kor-pus verwendet, um ein eigens entwickeltes Tool zur automatischen Normalisierung zutrainieren und evaluieren (Norma, beschrieben bspw. in Bollmann et al. (2012)).

    2 Guidelines

    2.1 Allgemeiner Aufbau

    Eine vollstndig normalisierter Text besteht aus insgesamt vier Spalten (vgl. Tab. 1):

    1. Spalte (Orig): das Originaltoken

    2. Spalte (Norm): das Token in einer normalisierten Form

    3. Spalte (Mod): das Token in einer modernisierten Form

    4. Spalte (Art der Anpassung): eine der Abkrzungen infl, sem oder ext, die denUnterschied zwischen normalisierter und modernisierter Form nher erklrt (in-fl = Flexion, sem = Semantik, ext = extinkte Wortform)

    Orig Norm Mod Art der Anpassung

    alz alsmein meinchind Kinddi diemandat mandate Fuwaschung extbegangen begangen vollzogen semhet hat hatte infl

    Tabelle 1: Tabellarischer Aufbau einer Normalisierung

    2.2 Spalte Norm: Normalisierung

    Diese Spalte ist obligatorisch auszufllen. Sie enthlt eine im modernen Standard-deutsch vorhandene3 Entsprechung des Originaltokens (Spalte 1). Diese Entsprechungdarf ausschlielich durch phonologische und/oder graphematische Entsprechungs-operationen entstehen. Die Wortart des Originaltokens wird bei der Normalisierungbeibehalten.

    2Dieses Projekt wird finanziert durch die Deutsche Forschungsgemeinschaft, Projekt DI 1558/4.3Bei Unsicherheiten sollte der Duden (http://www.duden.de/hilfe/rechtschreibung) benutzt werden;

    ist das Token hier enthalten, kann es verwendet werden.

    5

  • phonologische Operationen, bspw.:

    Diphthongierung: frnhd. /u/ > nhd. /au/ (hus Haus, mus Maus); frnhd. /i/> nhd. /ei/ (min mein, schriben schreiben)

    qualitativer Diphthongwandel: frnhd. /ou/ > nhd. /au/ (boum Baum, vrouwe Frau)

    Vokalsenkung: frnhd. // > nhd. // (kneg Knig); frnhd. /u/ > nhd. /o/(sunne Sonne)

    Vokalrundung: frnhd. /e/ > nhd. // (zwelf zwlf ); frnhd. /i/ > nhd. //(flistern flstern)

    Palatalisierung von /s/ (frnhd. slange nhd. Schlange) Epenthese (frnhd. eigenlich nhd. eigentlich, frnhd. namenlich nhd. nament-

    lich)

    Kontraktionen (frnhd. er seit nhd. er sagte)

    graphematische Operationen: t = d (kint Kind); cz = z (czu zu); ai = ei (gewonhait Gewohnheit); i = j (iare Jahre)

    Die so entstandene Wortform wird in die Spalte Norm eingetragen (vgl. Tab. 2).Darber hinaus mssen mit dieser Wortform zwei weitere Tests durchgefhrt werden,die in den folgenden Abschnitten erlutert werden.

    Orig Norm Mod Art der Anpassung

    lybe liebefrouwe Frausage sagemyr mirdynes deineskyndes Kindesmarter Marter

    Tabelle 2: Normalisierung (Bsp. B1, 262269)

    2.3 Spalte Mod: Modernisierung

    Whrend die Spalte Norm obligatorisch auszufllen ist, werden die Spalten Mod und Artder Anpassung nur unter bestimmten Bedingungen verwendet. Sie sind fr diejenigenFlle reserviert, bei denen die normalisierten Formen in Norm keinen sinnvollen moder-nen Satz ergeben, z.B. aufgrund von Abweichungen in Flexion und Bedeutung. Gibt eskeine Abweichungen dieser Art, bleiben die Spalten Mod und Art der Anpassung leer(vgl. Tab. 2).

    6

  • 2.3.1 Abweichungen in der Bedeutung (sem)

    In einigen Fllen existiert das in der Spalte Norm durch phonologische und graphema-tische Entsprechungsoperationen entstandene Token zwar nach wie vor im St