21
Institut für Informatik Linguistische Informatik Gerhard Heyer Universität Leipzig [email protected]

Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Embed Size (px)

Citation preview

Page 1: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Institut für Informatik

Linguistische Informatik

Gerhard Heyer

Universität Leipzig [email protected]

Page 2: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

2 Prof. Dr. G. Heyer Modul Linguistische Informatik

1) Klassifikation lern + bar + keit

2) Auflösung von Mehrdeutigkeiten Spiegel-ei, Spiegelei

Stau-becken, Staub-ecken

3) Behandlung von Allomorphen und anderen

Unregelmäßigkeiten

spreche-sprichst-sprach-gesprochen ...

schön-schöner, gut-besser

Probleme der Morphologie

Page 3: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Morphem: kleinste bedeutungstragende Einheit

freie Morpheme

z.B. Buch

gebundene Morpheme

z.B.

vor (Präposition, Präfix)

er (Proform, Pl )

Normalisierung

insb.:

Präfixe (z.B. vor)

Suffixe (z.B. +er)

Fugenelemente (z.B. -s-, -en-)

Morpheme

Page 4: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

4 Prof. Dr. G. Heyer Modul Linguistische Informatik

1) Flektion

2) Derivation

3) Komposition

Wortarten

offene

(produktiv)

geschlossene

(nicht produktiv)

Verben Nomina Adjektive Artikel Präpositionen Konjunktionen

3 Bereiche

Page 5: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

5 Prof. Dr. G. Heyer Modul Linguistische Informatik

Nomina: Deklination

Sekundärkategorien

Kasus (Nom, Gen, Dat, Akk, ...)

Genus (..., fem, neutr.)

Numerus (sg, pl, ...)

Flektionstabelle

Kasus

sg pl

Numerus

Nominativ Haus Häus+er

Dativ Haus+? Häuser

Akkusativ Haus Häuser

Genitiv Haus+es Häus+er

Haus

Häus

(Ablaute)

Nomina

Page 6: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

6 Prof. Dr. G. Heyer Modul Linguistische Informatik

Sekundärkategorien

Person (1., 2., 3.)

Tempus (Präs., Prät., ...)

Numerus (sg, pl)

Modus (Indikativ, Konjunktiv, Imperativ, ...)

Aspekt (Abgeschlossenheit, ...)

wichtig für

• Kongruenz

• Rektion (Übereinstimmung im Kasus)

Verben

Page 7: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

7 Prof. Dr. G. Heyer Modul Linguistische Informatik

allgemeine Form eines Wortes

(Präfix* (Stamm Suffix? Fugenelement?)+ Suffix*)+

Derivation und Komposition

Lösbarkeitsprobleme

Lösbarkeitsproblem -e

(Flexiv)

Lösbarkeit

(Sekundär-Stamm)

Problem

(Primär-Stamm)

Llösbar

(Sekundär-Stamm

- keit

(Derivativ)

lös-

(Primär-Stamm)

-bar

(Derivativ)

-s

(Fuge)

Page 8: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

8 Prof. Dr. G. Heyer Modul Linguistische Informatik

N A V

N

A

V

Derivation und Komposition

Jeder Stamm einer der Grundkategorien N, A oder V kann

durch Derivation in eine abgeleitete Wortform der

Kategorie N, A, bzw. V überführt werden.

Stämme gleicher

Grundkategorie können

zu einer abgeleiteten

Wortform gleicher

Kategorie komponiert

werden.

Page 9: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

9 Prof. Dr. G. Heyer Modul Linguistische Informatik

Verb 6.000 156.000 (Faktor 26) A-Formen 4.000 72.000 (Faktor 18) Nomen 20.000 80.000 (Faktor 4) Alle 30.000 308.000

Kategorie Grundform Flektionsformen

N + N Haus + Schuh

Schuh + Haus N! Möglichkeiten?

N + N + N Gäste + Haus + Schuh

Verhältnis Grundform - Flektionsformen

Page 10: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

10 Prof. Dr. G. Heyer Modul Linguistische Informatik

SINGULAR PLURAL

Wort Dat Akk Gen FTS

Ort (E)S 1

Verhältnis SES 2

Knabe N N N 3

Mensch EN EN EN 4

Zeitung 5

Buchstabe N N NS 6

Interessante N N 7

Herz EN ENS 8

Ferien 0

Wort NAG Dat FTP

Garten 1

Auto S S 2

Muskel N N 3

Zeitung EN EN 4

Arbeiterin NEN NEN 5

Segel N 6

Tag E EN 7

Verhältnis SE SEN 8

Leib ER ERN 9

Fossil IEN IEN 10

Eisen 0 Erklärungen

FTS = Flexionstyp Singular

FTP = Flexionstyp Plural

NAG = Nominativ/ Genitiv / Akkusativ

DAT = Dativ

Der Nominativ Singular ist stets durch das Null-Morphem () charakterisiert. Bei den Pluralflexionstypen 1, 6, 7, 9 kann Umlaut (vgl. Gärten, Äpfel, Drähte, Wälder) auftreten.

Schott-Flexive (Schott 1978)

Page 11: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

11 Prof. Dr. G. Heyer Modul Linguistische Informatik

SINGULAR: PLURAL: Flexive Flexionstyp Flexiv Flexionstyp * 1, 2, 5, 7, 8 * 1, 6 s, es 1 s 2 * ses 2 n 3, 6 n 3, 6, 7 en 4, 7 en 4, 8 * nen 5 * ns 6 e 7 * ens 8 * se 8 * sen 8 er 9 ern 9

ein 10

Bei den mit * bezeichneten Flexiven erübrigt sich nach bisherigen Beobach-tungen eine Prüfung auf Richtigkeit der Reduktion, weil in diesen Fällen keine Fehlerreduktionen auftreten können. Die Effizienz des Reduktionsalgorithmus wird dadurch erhöht, der Ausdruck wesentlich vereinfacht.

Flexionslisten

Page 12: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

12 Prof. Dr. G. Heyer Modul Linguistische Informatik

Wort FTS FTP UC WC

Buch 1 9 1 0

Pass 1 7 1 1

Ferien 0 1 0 0

Eisen 1 0 0 0

Thema 1 11 0 0

Themata 11 1 0 0

Kodierungsschema für Wörterbucheinträge

Page 13: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

13 Prof. Dr. G. Heyer Modul Linguistische Informatik

1) Vollformenlexikon

Codierung aller Wortformen

+

morphologische Information (z.B. Num, Pers, Tempus, ...)

2) Regelbasierte Ableitung aller Wortformen aus Stammform

Implementierung Flektionsmorphologie

Page 14: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

14 Prof. Dr. G. Heyer Modul Linguistische Informatik

(„schlafen“ (N {f aus}{f ein} Vh) schlafen)

• Allomorphe

(„schlaf“ (N {f aus}{f ein} V15h schlafen)

(„schlaef“ (N {f aus}{f ein} V2 schlafen)

(„schlief“ (N {f aus}{f ein} V34 schlafen)

• Wortformen

(schlaf (s1{f aus}{f ein}v) schlafen_pk1)

(schlaefst (s2{f aus}{f ein}v) schlafen_p)

(schlaeft (s3{f aus}{f ein}v) schlafen_p)

(schlafen (p13{f aus}{f ein}v) schlafen_pk1)

(schlaft (p2{f aus}{f ein}v) schlafen_p)

(schlief (s13{f aus}{f ein}v) schlafen_i)

(schliefst (s2{f aus}{f ein}v) schlafen_i)

Beispiel für einen Lexikoneintrag (R. Hausser)

Page 15: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

15 Prof. Dr. G. Heyer Modul Linguistische Informatik

1 ..... s ..... 2 ..... c ..... 3 ..... h ..... ..... l ..... w a ä f g f t e e t

Suchtiefe = maximale Wortlänge!

Buchstabenbaum bzw. trie

Page 16: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

16 Prof. Dr. G. Heyer Modul Linguistische Informatik

Hintergrund: Transformationsgrammatik

1. Ebene: Lexikon

2. Ebene: Oberfläche

Vermittlung durch morphologische Transformationen

Probleme der Allomorphe und morphologischen Unregelmäßigkeiten

z.B. "move" + "ed" "moveed" ist falsch,

weil richtig "moved“

Regelbasierter Ansatz: 2 Ebenen (Koskeniemmi)

Page 17: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

17 Prof. Dr. G. Heyer Modul Linguistische Informatik

LEXICAL FORM move + ed

m o v e + e d LEXICAL TAPE

SURFACE

TAPE

m o v e d

SURFACE FORM moved

m : m

e :

Idee: Verbindung der zwei Ebenen durch Automaten

Page 18: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

18 Prof. Dr. G. Heyer Modul Linguistische Informatik

Eingabeband : Lexikon

. . .

Steuereinheit

. . .

Ausgabeband : Oberfläche

Transduktor-Modell

Page 19: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

19 Prof. Dr. G. Heyer Modul Linguistische Informatik

A = (I, 0, Q, , 0, F)

RA = I* x 0*

1

3 4

2

e : e

e : e

v : v

e : Ø

+ : Ø

1 2 1 - -

2 2 - - 3

3 2 - 4 -

4 - 1 - -

v : v e : e + : Ø e :Ø

v : v

v : v

Endlicher Automat

Page 20: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

20 Prof. Dr. G. Heyer Modul Linguistische Informatik

< rule > : : = < symbol – pair >

< operator >

< left-context > __ < right-context >

< operator >:: =

Lexikonrealisierung

Lexikonbedingung

Äquivalenz

Beispiele: e : v : v __ + :

+ : e {{c | s ( h )} | s | y:i } – s

try + s

t r i e s

Regelnotation

Page 21: Linguistische Informatikasv.informatik.uni-leipzig.de/uploads/document/file_link/504/LI11...Morphologie 2 Prof. Dr. G. Heyer Modul Linguistische Informatik 1) Klassifikation lern +

Morphologie

21 Prof. Dr. G. Heyer Modul Linguistische Informatik

Grewendorf, Hamm, Sternefeld, Sprachliches Wissen, Kapitel V

(Morphologie), Suhrkamp stw 695: Frankfurt/M 1993

Gerda Schott, Automatische Deflexion unter Verwendung eines

Minimalwörterbuchs, in: Sprache und Datenverarbeitung 2, 1978,

62-77

Kimmo Koskenniemmi, A General two-level computational model for

word-form recognition and production, in: COLING ´84, S. 178-

181, Stanford 1984

Roland Hausser, Grundlagen der Computerlinguistik, Springer:

Berlin 1998

Weiterführende Literatur