18
Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin [email protected] Überblick Was ist Linguistik? linguistische Beschreibungsebenen (Phonetik, Phonologie, Morphologie, Syntax, Semantik, Pragmatik) Probleme (exemplarisch) Ambiguität (Wortarten, Syntax) – Kollokationen Unterspezifiziertheit – Anbindung an Weltwissen (semantische Lesarten) Produktivität (Wortbildung) Was ist Linguistik? Linguistik beschäftigt sich mit der Beschreibung und Modellierung von Sprachdaten den zugrundeliegenden Regularitäten (Regeln, statistische Muster, Constraintmengen, ...) menschlicher Sprachverarbeitung (mentale Prozesse), Spracherwerb, Sprachverwendung Entwicklung und Veränderung von Sprache Sprache als sozialem Phänomen, Kommunikation – ... Linguistik die 'alten Griechen' und die 'alten Inder': Grammatiken, Beobachtungen über Sprache, Analagie vs. Anomalie, Lautsymbolik bis 19. Jhd.: Grammatiken (erste Grammatiken von 'Volkssprachen' auf Basis der lateinischen Grammatik), Sprachphilosophie 19. Jhd.: Sprachvergleich (Sprachstammbäume), Beschreibung von Veränderung (Diachronie), Lautgesetze Beginn 20. Jhd.: Strukturalismus, Entwicklung von formalen Beschreibungsmitteln, Synchronie

Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

Embed Size (px)

Citation preview

Page 1: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

1

Linguistische Grundlagen

Anke Lüdeling

Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin

[email protected]

Überblick

• Was ist Linguistik?• linguistische Beschreibungsebenen

(Phonetik, Phonologie, Morphologie, Syntax, Semantik, Pragmatik)

• Probleme (exemplarisch)– Ambiguität (Wortarten, Syntax)– Kollokationen– Unterspezifiziertheit –

Anbindung an Weltwissen (semantische Lesarten)– Produktivität (Wortbildung)

Was ist Linguistik?

• Linguistik beschäftigt sich mit– der Beschreibung und Modellierung von Sprachdaten– den zugrundeliegenden Regularitäten

(Regeln, statistische Muster, Constraintmengen, ...)

– menschlicher Sprachverarbeitung (mentale Prozesse), Spracherwerb, Sprachverwendung

– Entwicklung und Veränderung von Sprache– Sprache als sozialem Phänomen, Kommunikation– ...

Linguistik

• die 'alten Griechen' und die 'alten Inder': Grammatiken, Beobachtungen über Sprache, Analagie vs. Anomalie, Lautsymbolik

• bis 19. Jhd.: Grammatiken (erste Grammatiken von 'Volkssprachen' auf Basis der lateinischen Grammatik), Sprachphilosophie

• 19. Jhd.: Sprachvergleich (Sprachstammbäume), Beschreibung von Veränderung (Diachronie), Lautgesetze

• Beginn 20. Jhd.: Strukturalismus, Entwicklung von formalen Beschreibungsmitteln, Synchronie

Page 2: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

2

Linguistik

• seit Chomsky (1957) generatives Paradigma –Grundgedanken Basis vieler formal unterschiedlicher Theorien (Government & Binding, Minimalismus, Head-DrivenPhrase Structure Grammar, Lexical Functional Grammar, ...)

• daneben: Soziolinguistik, Psycholinguistik, Neurolinguistik, Pädolinguistik, Sprachdidaktik, Typologie, Computerlinguistik, Korpuslinguistik, ...

Generative Linguistik

• SprecherInnen einer Sprache können unendlich viele Ausdrücke (Wörter, Sätze) – also auch solche, die sie nie vorher gehört haben – produzieren und verstehen

Exkurs: ... unendlich viele Ausdrücke ...

• Rekursion – Syntax

der Bezug des Bettes des Hotels des Ermittlungsteams der Ursache des Absturzes des Systems ...

– Morphologie Superstarauswahlveranstaltungsterminabsprachedialogsystem-absturzursachenermittlungsteamhotelbettbezug

• Konjunktion (Aufzählung)Am Sonntag fraß sie sich durch einen Apfel, zwei Bananen, drei Tomaten, vier Gurken, fünf Schokotörtchen, sechs ....

... unendlich viele Ausdrücke ...

• Hinzufügen neuer Basiselemente z.B. durch Entlehnung (email, Latte macchiato to go) oder Kreativität (Handy, unkaputtbar)

• semantische Prozessesystematische Polysemie (Huhn, Schwein)Analogie (Riesterknochen)metaphorische Erweiterungen etc.

Page 3: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

3

Generative Linguistik

• SprecherInnen einer Sprache können unendlich viele Ausdrücke (Wörter, Sätze) – also auch solche, die sie nie vorher gehört haben – produzieren und verstehen

• d.h., Untersuchungsgegenstand ist das zugrundeliegende Produktionssystem, das alle und nur die grammatischen Ausdrücke einer Sprache erzeugt

Generative Linguistik

• es gibt Sprachzentren im menschlichen Gehirn, die Produktionssysteme für menschliche Sprachen restringieren

• Evidenz– Universalien– Spracherwerb

Exkurs: Sprache und Gehirn

• wo 'wohnt' Sprache?• wie entstand Sprache/Sprachfähigkeit in der Evolution

des Menschen?• was macht Sprachfähigkeit aus? Ist Sprache eine

exklusiv menschliche Fähigkeit?• wie restringiert das Gehirn/die körperliche Einbettung

Sprache?

Wo ist die Sprachfähigkeit lokalisiert?

•Broca-Aphasie (motorische Aphasie): Sprachproduktion/ Spontansprache gestört, Agrammatismus

•Wernicke-Aphasie (rezeptive Aphasie): Sprachverständnis gestört, Sprache flüssig, allerdings entstellt, Neologismen

•in Wirklichkeit ist alles viel komplizierter ...

Page 4: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

4

Wo ist die Sprachfähigkeit lokalisiert?

• psycholinguistische Experimente: sprachliches Verhalten lässt Rückschlüsse auf Organisation von verschiedenen 'Komponenten' der Sprachfähigkeit zu– Speicherung von Einheiten vs. Regelanwendung– ...

• Imaging-Techniken (z. B. fMRI): Gehirnaktivität bei bestimmten Aufgaben (Nachsprechen eines Wortes, Beantworten einer Frage, Reaktion auf fehlerhafte Sätze, ...) wird gemessen– bei Sprachproduktion und –rezeption Aktivität in verschiedenen

Bereichen des Gehirns (nicht nur Wernicke und Broca)– unterschiedliche Fehler (Syntax vs. Semantik) werden in

verschiedenen Bereichen verarbeitet– ...

• ...

Sprachfähigkeit angeboren?

• Sprache als soziales (gelerntes) Phänomen ?• zu erklären ist

– es gibt kein Volk ohne Sprache– es gibt keine 'primitiven' Sprachen– es gibt sprachliche Universalien– Kreolisierung– Sprachfähigkeit ist nicht unmittelbar korreliert mit

Intelligenz (oder sozialer Klasse)

Sprachfähigkeit angeboren?

• Lernproblem: Spracherwerb läuft bei allen Kindern ungefähr gleich ab

• Sprache ist zu komplex, als dass sie einfach gelernt werden kann, zu wenig Input, kaum negative Evidenz

• Chomsky: es muss ein angeborenes Sprachlern'modul'(Language Acquisition Device) geben – Kinder lernen dann nur bestimmte 'Parameter' (Kinder 'entdecken' Grammatik)

Sprache = Instinkt?

• "the instinct to learn, speak and understand language" [...] "Language is not a cultural artifact that we learn the way we learn to tell time or how the federal government works. Instead it is a distinct piece of the biological makeup of our brains." (Pinker 1994, 17f)

Page 5: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

5

Co-Evolution von Sprache und Gehirn

• Deacon (1998) – ein spezielles 'Sprachorgan' nicht nötig– Menschen haben ein ungewöhnlich großes Gehirn

(Gehirn-Haut-Relation) – daher mehr Kapazität, Symbole zu verarbeiten und in Symbolen zu denken

– Sprache ist ein Produkt der allgemeinen Organisation/Entwicklung des Gehirns

– kritische Phase des Sprachlernens unterstützt durch korgnitive Entwicklung von Kindern

– Sprache entwickelt sich so, dass sie von Kindern leichter gelernt werden kannein Faktor für Sprachwandel ist der Filter durch Kinder

Überblick

• Was ist Linguistik?• linguistische Beschreibungsebenen

(Phonetik, Phonologie, Morphologie, Syntax, Semantik, Pragmatik)

• Probleme (exemplarisch)– Ambiguität (Wortarten, Syntax)– Kollokationen– Unterspezifiziertheit –

Anbindung an Weltwissen (semantische Lesarten)– Produktivität (Wortbildung)

Linguistische Beschreibungsebenen

• traditionell werden (mindestens) folgende Beschreibungsebenen unterschieden– Phonetik – Laut– Phonologie – Lautsystem – Morphologie – Struktur von Wörtern– Syntax – Struktur von Phrasen & Sätzen– Semantik – Bedeutung– Pragmatik – Verwendung

Phonetik

• Produktion und Systematik von Sprachlauten – Phon• artikulatorische Phonetik: Laute werden anhand des

Artikulationsortes und der Artikulationsartklassifiziert

Page 6: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

6

Phonetik

• Artikulationsort– bilabial [b] [p] [m]– alveolar [t] [d] [n] [s] [z] [l] [r]– ...

• Artikulationsart– stimmhaft (Stimmlippen schwingen) vs. stimmlos

[b] – [p], [d] – [t] – nasal (Luft entweicht auch durch die Nase) vs. oral

[m] – [b]– ...

Konsonanten, http://www.arts.gla.ac.uk/IPA/pulmonic.html

SAMPA

• SAMPA (Speech Assessment Methods PhoneticAlphabet) übersetzt die IPA-Zeichen in 7-bit ASCII-Zeichen (internationale Konvention)

• SAMPA für viele Sprachen erhältlich• in Text-to-Speech Systemen verwendet• z. B. deutsche Plosive (Auswahl)

p Pein paIn b Bein baIn t Teich taIC d Deich daIC

Phonologie

• Lautsystem einer Sprache– bedeutungsunterscheidende Laute

innerhalb einer Sprache – Phoneme– Silbenstruktur– Prosodie

Page 7: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

7

Phonologie

• bedeutungsunterscheidende Laute werden durch die Bildung von Minimalpaaren gefunden Hase vs. Nase, Schal vs. Schaf→ [h], [n], [l], [f] sind Phoneme des Deutschen

• dt. /r/: [r] oder [R] oder [χ] oder ... Varianten nicht bedeutungsunterscheidend→ es wird nur ein Phonem für /r/ angenommen

• Phoneminventar einer Sprache• Silbenmodelle einer Sprache• Prosodie/Betonungsmuster für die Silben

Morphologie

• Aufbau von komplexen WörternHaustür → Haus•türlachte → lach•te Unabhängigkeit → Un•ab•häng•ig•keit

• Einteilung in bedeutungs- oder funktionstragende(grammatische Funktion, z.B. 1.Pers. Sg. Präsens) Elemente -Morpheme

Morphologie

• Morphem:– Stamm: Morphem, das auch alleine stehen kann

Haus, Tür, lach, rot ...– Affix (Präfix, Suffix): Morphem, das nicht alleine stehen

kann-bar, -te, -keit, -ung, ver-, ent-, un- ...(Vorsicht: Verwendung von 'Präfix' und 'Suffix' in der Linguistik unterscheidet sich von der Verwendung von 'Präfix' und 'Suffix' in der Informatik)

Morphologie

Flexionlachte Menschen

DerivationHäuschen, lesbar

KompositionHaustür, hellblau

KonversionSchlafN → schlafV

KurzwortbildungAutomobil → Auto

...

Wortbildung

Page 8: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

8

Morphologie

• nicht nur Analyse, auch Strukturbildung• Struktur abhängig von Aufbauprinzipien –

spiegelt die Interpretation (Semantik) des komplexen WortesUn•ab•häng•ig•keit((Un•((ab•häng)•ig))•keit)

Komplexität von Morphologie

• Flexionsmorphologie: durch reguläre Sprachen/endliche Automaten beschreibbar

• Wortbildung: – durch kontextfreie Grammatiken beschreibbar

• Komposita mit Struktur (Zwergen-kinder-garten)• Präfixe, Suffixe, Zirkumfixe (Ge-renn-e)

– allerdings: auch Beispiele für nicht kontextfreie StrukturenBambara: o-wulu-filela-o-wulu-filela

Syntax

• Zusammensetzung von komplexen Ausdrücken aus Wörtern

• Struktur abhängig von Aufbauprinzipien, ist Interface zur Interpretation und Aussprache eines komplexen Ausdrucks

Syntax – Phrasen

• Ersetzbarkeit

George Bush lässt sich nicht einschüchternDer amerikanische Präsident lässt sich nicht einschüchternDer Präsident der Vereinigten Staaten ...Der Präsident, der von weniger als der Hälfte der

amerikanischen Wähler gewählt wurde, ...

*Präsident lässt sich nicht einschüchtern.*amerikanische lässt sich nicht einschüchtern

(* steht für 'ungrammatisch')

Page 9: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

9

Syntax – Phrasen

• ErsetzbarkeitGeorge Bush lässt sich nicht einschüchtern.Der amerikanische Präsident lässt sich nicht einschüchtern.Der Präsident der Vereinigten Staaten ...Der Präsident, der von weniger als der Hälfte der

amerikanischen Wähler gewählt wurde, ...• die grünen Sequenzen bilden Konstituenten desselben

Typs, d.h., man kann sie durcheinander ersetzen, ohne dass der Satz ungrammatisch wird

Syntax – Phrasen

• solche Konstituenten werden Phrasen genanntNominalphrase (NP)Verbalphrase (VP)Adjektivphrase (AP)...

Syntax – Phrasen

• Beispiel Nominalphrase (Ausschnitt)

der Präsidentder amerikanische Präsidentder frühere amerik. Präsidentein Präsident der USAder Präsident der ... wurde

PräsidentenART? (ADJ)* N (NP|S)?

Syntax – Phrasenstrukturbäume

• Phrasen werden zu komplexen Strukturen (Bäumen oder Graphen) zusammengesetzt

• Aufgabe der Syntax ist es– die Art der Phrasen in einer Sprache zu finden– die interne Struktur der Phrasen zu finden– die Kombinationsmöglichkeiten für Phrasen zu finden

Page 10: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

10

aus dem TIGER-Korpus (Baumbank, deutsche Zeitungstexte)

Syntax – Regeln/Constraints

• syntaktische Theorien unterscheiden sich unter anderem in der formalen Kodierung ihrer Strukturbeschreibungen– (kontextfreie) Regeln– Constraints, Merkmalsstrukturen– Kombination von beidem– ...

Komplexität von Syntax

• Natürliche Sprachen = kontextfrei?

• Großteil der syntaktischen Strukturen: kontextfrei beschreibbar

• Ausnahmen:– Schwyzerdütsch

weil d´Chind de Hans des hus hend laa aastriche1 2 3 1 2 3

– außerdem: zur Modellierung funktionaler Abhängigkeiten (mild) kontextsensitive Grammatiken notwendig

• dass ein Brief an seine Großmutter kam, die er …• dass ein Entwurf eines Brief an seine Großmutter kam, die er

Semantik

• Bedeutung von Wörtern (lexikalische Semantik) und Phrasen (kompositionelle Semantik)

Page 11: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

11

Semantik: lexikalische Semantik

• Ziel: Formale Beschreibung von semantischen Einheiten und Beziehungen– Polysemie, Homonymie, Vagheit …– Hyponyme, Hyperonyme, …

• vollständige Beschreibung der semantischen Eigenschaften des Wortschatzes einer Sprache durch Merkmalsbündel (+ Vererbung): konkret, belebt, Artefakt, ...

Lexikalische Semantik

• lexikalische Zerlegung in atomare Ausdrücke(semantische Primitive)

X tötet Y X macht, dass es dazu kommt, dass es nicht mehr der Fall ist, dass Y lebtCAUSE(X, BECOME(NOT(ALIVE(Y))))

• semantische Eigenschaften bestimmen Kombinationsmöglichkeiten von Elementen:Verbklassen und AdverbienHans erreicht in drei Stunden den Gipfel.#Hans erreicht drei Stunden lang den Gipfel.Hans rannte drei Stunden lang#Hans rannte in drei Stunden (aber: resultativ ok)

Semantik: kompositionale Semantik

• Bedeutung von komplexen Ausdrücken ist eine Funktion derBedeutung der Teile (“Kompositionalitätsprinzip”, Frege)

• Bedeutung von Wörtern – z.B. Referent eines Wortes (“Hans”: h )– z.B. Menge aller Objekte mit einer bestimmten Eigenschaft

(“lachen”: λx.lachen(x), “Mann”: λx.mann(x))

• Bedeutung von Sätzen– “Hans lacht”: lachen(h) -> Bedeutung = Wahrheitswert

• Quantorenskopus, Intension und Extension

Semantik: Textsemantik

• Bedeutung von Texten (= Wörter und Sätze im Kontext)

• z.B. Bedeutung von (vielen) Pronomen erst im Kontextbestimmbar

• z.B. Informationsstruktur (alte vs. neue Information)

Page 12: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

12

Komplexität von Semantik

• viele versch. semantische Theorien• In jedem Fall: Prädikatenlogik zweiter Stufe

(mit Eigenschaften von Eigenschaften)der ehemalige Präsident

Pragmatik

• Grice’sche Maximen: Kooperationsprinzip– Ökonomie– Ironie

• Präsupposition, Implikaturen, …

Zusammenspiel der Komponenten

Hans will heute ...

Semantik/

PragmatikMorphologie/

Syntax

Phonetik/

Phonologie

λx[mann(x) & ...

Überblick

• Was ist Linguistik?• linguistische Beschreibungsebenen

(Phonetik, Phonologie, Morphologie, Syntax, Semantik, Pragmatik)

• Probleme (exemplarisch)– Ambiguität (Wortarten, Syntax)– Kollokationen– Unterspezifiziertheit –

Anbindung an Weltwissen (semantische Lesarten)– Produktivität (Wortbildung)

Page 13: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

13

Probleme in der Linguistik

• alles wäre ganz einfach, wenn– es endlich viele Ausdrücke (Wörter/Sätze) gäbe (oder

wenigstens endlich viele Basiseinheiten)– jeder Ausdruck genau eine Struktur und Interpretation

hätte und – diese Struktur immer lokal (ohne zusätzliche

Informationen) zu bestimmen wäre

Probleme ...

• im richtigen Leben (in einer natürlichen Sprache) gibt es aber– Produktivität (und Kreativität)– Ambiguität– Unterspezifikation und Kontextabhängigkeit

Ambiguität

• kategorielle Ambiguität: ein Ausdruck kann zu mehreren Kategorien gehören

• Kohl – Name oder einfaches Nomen?nach 14 Jahren Kohl war die Arbeitslosigkeit auf X% gestiegennach 14 Jahren Kohl wollten wir endlich mal wieder etwas anderesessen

Ambiguität

• strukturelle Ambiguität: einem Ausdruck können mehrere Strukturen zugewiesen werden

• Morphologie– [klein•[Kunst•Werk]] –

ein kleines Kunstwerk, vgl. Kleinplastik, Kleinbetrieb, Kleinwagen

– [[klein•Kunst]•Werk]ein Werk der Kleinkunst, vgl. Kleinkunstbühne, Kleinkunstförderung

Page 14: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

14

Ambiguität

• Syntax– [[alte Männer] und Frauen]– [alte [Männer und Frauen]]– ich sah den Mann mit dem Fernrohr – ich sehe ihn laufend

Ambiguität

• kategorielle und strukturelle Ambiguität bedingen einander

John saw her duck [under the table]

NE V Possessivpron. N PP

NE V Personalpron. V PP

Ambiguität – Beispiele

• strukturelle Ambiguität– Staubecken– Arbeitsamt– Kaffee– Stiefelchen

• semantische Ambiguität– 4 Männer tragen 3 Klaviere– Alkoholiker werden immer jünger

Ambiguität - Beispiele

• Hochschullehrerstellen [13] (DMOR, IMS Stuttgart)Hoch=Schul=Lehr=Erst=Elle+NN Hoch=Schul=Lehr=Erst=Ellen+NE Hoch=Schul=Lehr=Erstellen+NN Hoch=Schul=Lehr=erst=Elle+NN Hoch=Schul=Lehr=erst=Ellen+NE Hoch=Schul=Lehr=erstellen^VINF+NN Hoch=Schul=Lehrer=Stelle+NN Hoch=Schul=Lehrer=stellen^VINF+NN hoch=Schul=Lehr=Erst=Elle+NN hoch=Schul=Lehr=Erst=Ellen+NE hoch=Schul=Lehr=Erstellen+NN hoch=Schul=Lehr=erst=Elle+NN hoch=Schul=Lehr=erst=Ellen+NE hoch=Schul=Lehr=erstellen^VINF+NN hoch=Schul=Lehrer=Stelle+NN hoch=Schul=Lehrer=stellen^VINF+NN

Page 15: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

15

Ambiguität – Auflösung

• Desambiguierungsstrategien– regelbasiert– heuristisch – statistisch (HMM, Kontextvektoren)

• Desambiguierungsstrategien beziehen sich alle auf einen lokalen Kontext – entweder über Anzahl der Token definiert oder über syntaktische Relationen

• (Vorsicht bei statistischer Auswertung: Ereignisse sind nicht unabhängig)

Desambiguierung - Kontextabhängigkeit

• Problem: viele Ambiguitäten lassen sich lokal nicht auflösen –man braucht mehr Wissen!

• Kontext 1 Satz– nach 14 Jahren Kohl– Straßenraub

• Kontext mehrere Sätze– I saw her duck under the table

• manchmal reicht das nicht ...

Verstehen Sie Englisch?

If the balloons popped, the sound wouldn't be able to carry since everything would be too far away from the correct floor. A closed window would also prevent the sound from carrying, since most buildings tend to be well insulated. Since the whole operation depends on a steady flow of electricity, a break in the middle of the wire would also cause problems. Of course, the fellow could shout, but the human voice is not loud enough to carry that far. An additional problem is that a string could break on the instrument. Then there could be no accompaniment to the message. It is clear that the best situation would involve less distance. Then there would be fewer potential problems. With face to face contact, the least number of things could go wrong. (Bransford and Johnson (1973))

If the balloons popped, the sound wouldn't beable to carry since everything would be too far away from the correct floor. A closedwindow would also prevent the sound fromcarrying, since most buildings tend to be well insulated. Since the whole operation dependson a steady flow of electricity, a break in themiddle of the wire would also cause problems. Of course, the fellow could shout, but the human voice is not loud enough to carry that far. An additional problem is that a string could break on the instrument. Thenthere could be no accompaniment to themessage. It is clear that the best situationwould involve less distance. Then there would be fewer potential problems. With face to face contact, the least number of thingscould go wrong.

Page 16: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

16

Produktivität: ein bisschen Lexikostatistik

• Wie wahrscheinlich ist es, dass man ein neues (ungesehenes) Wort findet, nachdem man eine gegebene Menge Text verarbeitet hat?

• das lässt sich aus der Verteilung der Wörter in demgegebenen Text errechnen(Baayen 1992, 2001)

Wortverteilung

grobe Vorstellung • wenn man eine endliche Menge von Wörtern hat,

erwartet man, dass jedes dieser Wörter in einem genügend großen Text mehrfach auftritt

• wenn man eine unendliche Menge von Wörtern hat, erwartet man, dass selbst in einem sehr großen Text viele nur einmal auftreten (und viele natürlich überhaupt nicht)

• d.h., dass die Zahl der seltenen Wörter Hinweise über die Anzahl der Wörter gibt

N = Token, V = Typen

Typ/Token Verteilung erstellen

• alle Typen im Text zählen (setzt Definition von Typ voraus)

• zählen, wie oft jeder Typ vorkommt

• im Stuttgarter-Zeitung Korpus (36 m Token)

Page 17: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

17

Lemmatypen im STZ-Korpus

Typ Häufigkeit Typ Häufigkeit

d 3,571,573 ... ..., 1,848,517 Zytomegalievirus 1. 1,605,763 Zytomir 1ein 710,719 Zytos 1und 708,531 zytotoxische 1in 613,876 Zywietz 1PPER 536,174 Zyzik 1sein 534,056 ZZ-Top-Hit 1" 408,708 ZZ-Top-Käfer-Nachbau 1… … ZZF-Information 1

Erstellen einer Frequenzverteilung

• zählen, wie häufig jede Häufigkeit vorkommt (Häufigkeit von Häufigkeiten)

freq freq of freq freq freq of freq1 404,579 … …2 96,981 708,531 13 43,357 710,719 14 26,159 1,605,763 15 17,559 1,848,517 1… … 3,571,573 1

LNRE Verteilung

• mehr als die Hälfte aller Typen kommen nur einmal vor (hapax legomena)

• Evidenz dafür, dass noch lange nicht alle möglichen Wörter vorgekommen sind

• ähnliche Ergebnisse auch für viel größere Texte (Zipf'slaw, LNRE Verteilung)

• d.h. man kann (jedenfalls für alle praktischen Zwecke) von einer unendlich großen Anzahl von Wörtern ausgehen

• (d.h. übrigens auch, dass statistische Verfahren, die auf Normalverteilung basieren, hier nicht angewendet werden können)

Abhängigkeiten von Wörtern

• linguistisches Modell:– (endliches) Lexikon von Stämmen, Affixen,

unregelmäßigen komplexen Wörtern mit Kategorisierung– Regeln/Constraints, die alle grammatischen Ausdrücke

einer Sprache generieren/beschränken

• Problem: Wortkombinationen– Idiome, Kollokationen, Phraseologismen, Klischees, ...

im Eimer sein, ins Gras beißen, zur Aufführung kommen, starker Raucher, guter Esser, Zähne putzen, ...

Page 18: Linguistische Grundlagen - informatik.hu-berlin.de · Linguistische Grundlagen Anke Lüdeling Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin ... Grammatik)

18

Mehrwortlexeme

• Modifikation: auf die Palme bringenLange Wartezeiten bringen deutsche Internetnutzer auf die Palme. Was Männer auf die Palme bringt ... "Einige Leute sind schon so weit oben auf der Palme, dass es schwer wird, sie wieder herunterzuholen", sagte EU-Außenkommissar Chris Patten am Freitag.

• wörtliche und 'idiomatische' BedeutungGerade zum bevorstehenden Osterfest hat Lammfleisch Hochsaison. Statt des viele tausend Kilometer weit gereisten Tiefkühlfleischs empfiehlt die Verbraucherzentrale Sachsen den Braten aus der Region. Erst recht, wenn die Schafe „in das richtige Gras“ gebissen haben. http://www.vz-nrw.de/UNIQ1080827464132612998/doc7946A.html

Zusammenfassung

• strukturelle Ambiguitäten, nicht strukturelleAmbiguitäten

• keine 1:1 Abbildung von Form und Bedeutung/Funktion• unendlich viele Ausdrücke – regelmäßige produktive

Prozesse• aber auch: interne Abhängigkeiten – Lexikalisierung

komplexer Ausdrücke mit Struktur• Abhängigkeit von anderen Wissensquellen

("Weltwissen")

Literatur/Referenzen

• Einführungen– Carstensen, Kai-Uwe et al. (eds) (2001) Computerlinguistik und

Sprachtechnologie. Eine Einführung. Spektrum Akademischer Verlag, Heidelberg

– Fromkin, Victoria & Rodman, Robert (19986) An Introduction to Language. Harcourt Brace College Publishers, Fort Worth etc.

– Mitkov, Ruslan (ed) (2003) The Oxford Handbook of ComputationalLinguistics. Oxford University Press, Oxford

– Radford, Andrew et al. (1999) Linguistics. An Introduction. Cambridge University Press, Cambridge

• Sprache und Gehirn– Deacon, Terrence (1997) The symbolic species. The co-evolution of

language and the human brain. Penguin Books, London– Loritz, Donald (1999) How the brain evolved language. Oxford University

Press, Oxford– Pinker, Steven (1994) The language instinct. Penguin Books, London

Literatur/Referenzen

• Phonetik/Phonologie– Internationales Phonetisches Alphabet http://www.arts.gla.ac.uk/IPA/ipachart.html– SAMPA

http://www.phon.ucl.ac.uk/home/sampa/home.htm– Wiese, Richard (2000) The Phonology of German. Oxford University Press, Oxford.

• Syntax– TIGER-Korpus und TIGER-Search

http://www.ims.uni-stuttgart.de/projekte/TIGER/

• Kollokationen– www.collocations.de

• Produktivität, Lexikostatistik– Baayen, R. Harald (2001) Word Frequency Distributions. Kluwer, Dordrecht