60
Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken Simon D. Schweitzer BBAW, Altägyptisches Wörterbuch

Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Möglichkeiten (und Probleme) der Darstellung von Wortfeldern

in lexikalischen DatenbankenSimon D. Schweitzer

BBAW, Altägyptisches Wörterbuch

Page 2: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder in der ägyptologischen Praxis: Status quo (I)

• Möglichkeit A: Einzelstudien zu bestimmten Wortfeldern; die Ergebnisse liegen in Artikeln oder Monographien vor; z.B.:– Bickel, S.: Furcht und Schrecken in den Sargtexten.

In: SAK 15, 1988, S. 17-25.– Franke, D.: Altägyptische

Verwandtschaftsbezeichnungen im Mittleren Reich, 1983.

• Diese Einzelstudien sind i.d.R. in sich abgeschlossen. Es entwickelt sich keine Diskussion. Ausnahme: die Farbbezeichnungen: Beiträge von Schenkel, Baines und Warburton

Page 3: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder in der ägyptologischen Praxis: Status quo (II)

• Möglichkeit B: Sortierung des gesamten Wortschatzes nach Wortfeldern:– 6. Band des Wörterbuches: Deutsch-

aegyptisches Wörterverzeichnis in alphabetischer und sachlicher Ordnung […]

– Hannig, R. & P. Vomberg: Wortschatz der Pharaonen in Sachgruppen, 1998.

Page 4: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Lexikalische Datenbanken in der Ägyptologie

• sie befassen sich mit dem gesamten Wortschatz

• ein Datensatz bietet Informationen zu einem Wort

• Beispiele:

Page 5: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Beinlichliste

Page 6: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Ägyptologische Datenbank AHA

Page 7: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Ramses

Page 8: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Thesaurus Linguae Aegyptiae

Page 9: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder in Datenbanken:Marktlücken in der Ägyptologie

1. Browsen von allgemeinen Wortfeldern zu speziellen

Page 10: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Browsen

• Grundannahme: Wortfelder sind hierarchisch strukturiert

• Ansichten beliebiger Granularität können leicht erzeugt werden

Page 11: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder in Datenbanken:Marktlücken in der Ägyptologie

1. Browsen

2. Die Suche in Wortfeldern nach zeitlichen, lokalen oder genrespezifischen Kriterien kann implementiert werden: Wie unterscheidet sich das Wortfeld [SEHEN] aus dem memphitischen Raum von dem aus dem thebanischen? Wie entwickelt sich ein Wortfeld vom Alt- zum Neuägyptischen? Haben literarische Texte andere Vertreter eines Wortfeldes als z.B. Briefe?

Page 12: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder in Datenbanken:Marktlücken in der Ägyptologie

1. Browsen

2. Einschränkungen in der Suche

3. Suchmöglichkeit Wort X + Wortfeld

Page 13: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Bisher im TLA:Suche nach Wort X + Wort Y

Page 14: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

oder: Suche nach Wort X + Wortart

Page 15: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wunsch:

• Wort X + Wortfeld Y– Beispiel: Unterscheidet sich die Lexik des

Feindevernichtens, ob man nun Asiaten oder Nubier vernichtet?

• Wortart X + Wortfeld Y– Beispiel: Werden Bewegungsverben immer

mit m statt Hr in der jw=f-Hr-sDm-Konstruktion verwendet?

Page 16: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder in Datenbanken:Marktlücken in der Ägyptologie

1. Browsen

2. Einschränkungen in der Suche

3. Suchmöglichkeit Wort X + Wortfeld

4. Diachrone Wortfeldentwicklung

Page 17: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Diachrone Wortfeldentwicklung

• viele griechische Lehnwörter im Koptischen

• Fragestellung: Waren die Wortfelder in der Zeit direkt vor dem Koptischen so unausgeglichen, dass die griechischen Wörter so leicht in der hohen Zahl in das Koptische eindrangen? Oder verdrängten die griechischen Wörter ägyptische Äquivalente in intakten Feldern?

Page 18: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder in Datenbanken:Marktlücken in der Ägyptologie

1. Browsen

2. Einschränkungen in der Suche

3. Suchmöglichkeit Wort X + Wortfeld

4. Diachrone Wortfeldentwicklung

5. Sprachvergleich

Page 19: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Sprachvergleich

• Welche Wortfelder haben im Ägyptischen mehr (weniger) Vertreter als in anderen Sprachen?

• Testen der Sapir-Whorf-Hypothese (unterschiedliches Abbilden der außersprachlichen Realität)

• Vorteil der Datenbanken: schnelleres und effizienteres Suchen

Page 20: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder in Datenbanken:Marktlücken in der Ägyptologie

1. Browsen

2. Einschränkungen in der Suche

3. Suchmöglichkeit Wort X + Wortfeld

4. Diachrone Wortfeldentwicklung

5. Sprachvergleich

6. Lexikostatistik

Page 21: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Lexikostatistik in der Ägyptologie

• Versuch, den lexikalischen Reichtum eines Textes quantitativ zu erfassen

• eingeführt von Fritz Hintze, 1975• das Maß S*: je kleiner S* ist, desto reicher

ist das Vokabular• bisherige Untersuchungen zu einzelnen

(zumeist literarischen) Texten• Gesamtvokabular und Teilvokabulare

(nach Wortart) werden betrachtet

Page 22: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Lexikostatistischer Vergleich des Gesamtwortschatzes einzelner

Texte

Page 23: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Mögliche Fragestellungen

• Ist ein lexikalisch reicher Text auch in allen verwendeten Wortfeldern lexikalisch reich?

• Wie reich sind die Wortfelder, zu denen die Schlüsselwörter eines Textes gehören? Unterscheidet sich deren Reichtum von dem anderer Wortfelder?

• Ist der lexikalische Reichtum eines Textes gleichverteilt?

Page 24: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder in Datenbanken:Marktlücken in der Ägyptologie

1. Browsen

2. Einschränkungen in der Suche

3. Suchmöglichkeit Wort X + Wortfeld

4. Diachrone Wortfeldentwicklung

5. Sprachvergleich

6. Lexikostatistik

7. Lautsymbolik

Page 25: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Lautsymbolik (I)

• eingeführt von Sabine Albers, 2008

• These: die lautliche Struktur eines Wortes ist nicht willkürlich, sondern hängt von der Semantik ab

• Freude werde vorrangig hart artikuliert (Plosiva: p, t, k, q)

• Trauer werde vorrangig weich artikuliert (Nasale: m, n)

• These wurde anhand von bestimmten Textsorten geprüft

Page 26: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Lautsymbolik (II)

• eingeführt von Sabine Albers, 2008

• These: die lautliche Struktur eines Wortes ist nicht willkürlich, sondern hängt von der Semantik ab

• Freude werde vorrangig hart artikuliert (Plosiva: p, t, k, q)

• Trauer werde vorrangig weich artikuliert (Nasale: m, n)

• These wurde anhand von bestimmten Textsorten geprüft

• Nachweis von Schneider (LingAeg 16, 2008), dass das verwendete Material in hohem Maße fehlerdurchsetzt ist: „Bei einer Gesamtzahl von 18627 Konsonanten (S. 67) bedeutet das aber, dass die komplette Argumentationsbasis der Arbeit entfällt.“

Page 27: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Lautsymbolik (III)

• Die These der Lautsymbolik sollte nicht anhand von Textsorten, sondern anhand des Vokabulars der entsprechenden Wortfelder geprüft werden

• Umfangreiche quantitative Analysen können nur in lexikalischen Datenbanken durchgeführt werden

Page 28: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wie gelangt die Information „Wortfeld“ in die Datenbank?

• 2 Ansätze:1. Corpusbasiertes Annotieren („Taggen“)

Page 29: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Corpusbasiertes Annotieren

• Bei der Erstellung eines Corpus werden jedem Element verschiedene Informationen beigefügt.– Um welches Wort handelt es sich?

Lexikalische Annotation– Um welche (grammatikalische) Form handelt

es sich? Grammatikalische Annotation– Zu welchem Bedeutungsfeld ist das Wort zu

zählen? Semantische Annotation

Page 30: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Semantisches Tagging

• UCREL Semantic Analysis System (Projekt der University of Lancaster)

• http://ucrel.lancs.ac.uk/usas/• Bisher angewendet für: Englisch, Finnisch und

Russisch• Neben Lemmatisierung, Wortart,

grammatikalischer Information wird auch semantisch getaggt.

• Die semantischen Tags sind hierarchisch gegliedert:

Page 31: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Hauptkategorien in USAS

Page 32: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Feingliederung im Lancaster Model

Page 33: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Semantisches Tagging in der Praxis

Page 34: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Vorteile

• es gibt ein Modell, das auf den gesamten Wortschatz anwendbar ist

• das Modell ist nicht auf eine Sprache beschränkt => sprachübergreifende Studien sind möglich

• man kann einem Wort mehrere Tags zuweisen

• eine semantische Einheit kann aus mehreren Wörtern bestehen

• die Semantik hängt nicht am Lemma, sondern an einer bestimmten Textstelle

Page 35: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Exkurs

• Warum ist es problematisch, die semantische Information direkt an ein Lemma zu hängen?

• Beispiel: pr gehört zum Wortfeld [GEBÄUDE], aber was ist mit folgendem Satz:

Page 36: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

pUC 32213, vso. 13-16

Page 37: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Vorteile & Nachteile

• es gibt ein Modell, das auf den gesamten Wortschatz anwendbar ist

• das Modell ist nicht auf eine Sprache beschränkt => sprachübergreifende Studien sind möglich

• man kann einem Wort mehrere Tags zuweisen

• eine semantische Einheit kann aus mehreren Wörtern bestehen

• die Semantik hängt nicht am Lemma, sondern an einer bestimmten Textstelle

• ein sehr hoher Arbeitsaufwand:– wollte man nach diesem

Modell das TLA semantisch taggen, müsste man alle Texte nachbearbeiten!

• ob das verwendete Modell semantische Differenzierungen im Ägyptischen hinreichend genau abbilden kann, ist unklar

Page 38: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Generelle Fragen

• Gibt es überhaupt ein metasprachliches Modell für die Wortfeldstrukturen, das für alle Sprachen gilt?

• Wie kann man die Wortfelder benennen? Bringt nicht die Verwendung des Englischen die Kategorisierung im Englischen in die untersuchte Sprache ein?

Page 39: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wie gelangt die Information „Wortfeld“ in die Datenbank?

• 2 Ansätze:1. Corpusbasiertes Annotieren

2. Lexikonbasiertes Annotieren

Page 40: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Lexikonbasiertes Annotieren

• Einem Lemma werden bestimmte Informationen hinzugefügt:– Wortart– Übersetzung– hieroglyphische Schreibungen– semantische Informationen (Wortfeld)– Beziehungen zu anderen Lemmata

Page 41: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Beziehungen zu anderen Lemmata

• Verweise– obsolete Ansetzungen werden auf andere Lemmata

verwiesen

• hierarchische Ordnung, z.B.:– im Wb nach (In-)Transitivität getrennte Einträge

werden einem Oberlemma hierarchisch untergeordnet

• Bestandteile– Verknüpfung von Kompositum und verwendeten

Bestandteilen

Page 42: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Beziehungen zu anderen Lemmata

• weitere Möglichkeiten:– Synonyme, Antonyme, Hyperonyme …

Page 43: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

WordNet

• Datenbank zum englischen Wortschatz

• seit 1985 in Princeton• frei verfügbar• http://wordnet.princeton.edu/

http://wiki.english.ucsb.edu/index.php/File:Wordnet.jpg

Page 44: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

WordNet

• verschiedene Implementierungen• mobiles Wörterbuch:

http://www.mobisystems.com/images/Palm/wordnet_palm.jpg

Page 45: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

http://www.wandora.org/wandora/wiki/images/Wordnet_example.gif

Page 46: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Beziehung zwischen Lemmata (I)

http://adimen.si.ehu.es/web/files/WordNet2TCO/TCO2.3FirstEntity.png

Page 47: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Beziehung zwischen Lemmata (II)

http://dingo.sbs.arizona.edu/~sandiway/wnconnect/wnconnectex2.png

Page 49: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Vorteile

• strukturelle Erschließung des Wortschatzes

• Angabe der Relation zwischen Lemmata

• mehrere Beziehungsangaben pro Wort möglich

• im Vergleich zum textstellenbasierten Ansatz geringerer Arbeitsaufwand

Page 50: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Vorteile & Nachteile

• strukturelle Erschließung des Wortschatzes

• Angabe der Relation zwischen Lemmata

• mehrere Beziehungsangaben pro Wort möglich

• im Vergleich zum textstellenbasierten Ansatz geringerer Arbeitsaufwand

• Ob (synchron gedachte) Relationen auch für diachrone Zusammenhänge verwendet werden können, ist unklar.

• Sprachübergreifende Studien sind kaum möglich.

• Umgang mit Mehrworteinheiten

• semantische Variationsbreite eines Lemma ist schlecht abbildbar

Page 51: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Umgang mit semantischen Angaben in Datenbanken

• Taggen des Textwortes bzw. des Lemma reicht nicht aus!

• Die Wortfelder müssen auch untereinander strukturiert werden.

Page 52: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Taxonomie

Page 53: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Umgang mit semantischen Angaben in Datenbanken

• Taggen des Textwortes bzw. des Lemma reicht nicht aus!

• Die Wortfelder müssen auch untereinander strukturiert werden.

• Nur wenn die Felder in Beziehung gesetzt werden, ist das gewünschte Browsen möglich!

Page 54: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Taggen

• Warum ist es wichtig, dass man einem Textwort bzw. einem Lemma mehrere semantische Tags zuweisen kann?

Page 55: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Nahrungsmittel?

Aber was ist mit Äpfeln, Kuchen, Zwiebeln, Schinken…?

Page 56: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Aal

• folgende Tags sind denkbar:– Fisch– Nahrungsmittel– feindliches Wesen– …– vielleicht auch:

• literarisches Motiv• Metapher für …

Page 57: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Wortfelder / semantische Tags

• das Vokabular muss einheitlich sein (es darf nicht einmal [SEHEN] und einmal [SCHAUEN] heißen)

• die semantischen Tags müssen verknüpft sein• diese Verknüpfungen müssen ebenfalls

standardisiert sein• alle Tags sind auf alle Wörter anzuwenden

– (wenn man beim Aal ein Tag „literarisches Motiv“ ansetzt, ist bei allen anderen Wörtern zu prüfen, ob sie auch mit diesem Tag annotiert werden können)

Page 58: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Darstellung der Wortfeldmitglieder

• konventionell: alphabetische Liste

• Prototypensemantik:– Es gibt typische Vertreter eines Feldes und

weniger typische: 3 ist typischer Vertreter für [UNGERADE ZAHLEN], 875467397 hingegen nicht.

– Wie bildet man dies ab?

Page 59: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

wortschatz.uni-leipzig.de

Page 60: Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Tag cloud

http://tinysubversions.com/tag_cloud.png