Author
others
View
7
Download
0
Embed Size (px)
Institut fr Informatik
Linguistische Informatik
Einfhrung
Gerhard Heyer
Universitt Leipzig [email protected]
Einfhrung
2 Prof. Dr. G. Heyer Modul Linguistische Informatik
Informatik und Linguistik
Informatik als Werkzeug und Theoriegrundlage
Linguistik mit dem Computer: Untersttzung der
Linguisten bei der praktischen Arbeit
Linguistische Informatik: Anwendung von Konzepten
und Verfahren der Informatik fr die Analyse von
Sprache (als System oder Einzelsprache)
formale Sprachen, Parsing, Semantik und Verifikation
informationstheoretische Konzepte,
graphentheoretische Modellierung
Einfhrung
3 Prof. Dr. G. Heyer Modul Linguistische Informatik
Zwei Traditionen der Linguistischen Informatik
Computerlinguistik
Orientierung an kognitiven Modellen des
Sprachverstehens
Grundlage: formale Sprachen und regelbasierte
Reprsentationen
Ziel ist die Simulation sprachlicher Prozesse auf dem
Computer
Institutionell meist an philologischen Fakultten angesiedelt,
sehr populr in den 90er Jahren, aber
keine wesentlichen theoretischen oder praktischen Erfolge
Einfhrung
4 Prof. Dr. G. Heyer Modul Linguistische Informatik
Zwei Traditionen der Linguistischen Informatik
Sprachprodukttechnologie
Orientierung an empirischen und ingenieurswissen-
schaftlichen Verfahren der Sprachbeschreibung
Grundlage: Textdatenbanken, IR, informations-
theoretische Modelle, graphbasierte Modellierungen
Ziel ist die computeruntersttzte Nutzung von Sprache
als wesentliches Mittel des Verstehens und der
Kommunikation
Institutionell Teil der Angewandten Informatik,
starker Auftrieb mit wachsender Bedeutung des Internet
Einfhrung
5 Prof. Dr. G. Heyer Modul Linguistische Informatik
Anwendungen der Linguistischen Informatik
Informatik fr den Computer
Weder Sprachverstehen noch Sprachproduktion sind
bisher gelst. Jedoch besitzen wir eine Vielzahl von
Verfahren, die zwar kein Verstehen ermglichen, aber fr
viele Anwendungen oft vllig ausreichen.
flache Anstze (effizient und robust)
statistische Methoden, Mustergrammatiken
tiefe Anstze (przise und korrekt)
linguistische Prinzipien, Constraints oder
komplexe Regelwerke
Einfhrung
6 Prof. Dr. G. Heyer Modul Linguistische Informatik
Zentrale Einsatzgebiete
Sprachprodukte fr das
Informations- und Wissensmanagement
Sprachprodukte fr die
Dokumentenproduktion und -verwaltung
Sprachprodukte fr die
Mensch-Maschine Kommunikation
Sprachprodukte fr die
Mensch-Mensch Kommunikation
Einfhrung
7 Prof. Dr. G. Heyer Modul Linguistische Informatik
Wichtige Trends
Integration von verschiedenen Medien und Modi in der Kommunikation zwischen Menschen bzw. Mensch und
Maschine
Verarbeitung von groen Mengen multimedialer,
multimodaler und multilingualer Information
Schrittweise Entwicklung zu inhaltsbezogenem Umgang
mit Information (semantische statt syntaktische
Methoden)
Einfhrung
8 Prof. Dr. G. Heyer Modul Linguistische Informatik
Speech Technologies
Voice Control Systems
Diktiersysteme
Text-to-Speech Systems (Vorlesesysteme)
Sprecher Identifikations- und Verifikationssysteme
Spoken Information Access
Speech Translation Systems
Dialog Systeme in gesprochener Sprache
... ... ...
Einfhrung
9 Prof. Dr. G. Heyer Modul Linguistische Informatik
Text Technologien
Rechtschreibprfung und Textkorrektur
Grammatikprfung und Stilometrie
computergesttzte bersetzung (translation
memories, Terminologiesysteme)
vollautomatische Vorbersetzung
hochwertige vollautomatische bersetzung
Text Generierung
... ... ...
Einfhrung
10 Prof. Dr. G. Heyer Modul Linguistische Informatik
Information Management Technologien
Textzusammenfassung
Textklassifikation
Cross-lingual Information Retrieval
Information Extraction
Concept-Based Information Retrieval
Text Understanding
... ... ...
Einfhrung
11 Prof. Dr. G. Heyer Modul Linguistische Informatik
Anwendungen im Information Retrieval
Stammformreduktion
automatische Disambiguierung
Query expansion mit Thesauren, Taxonomien und
Ontologien
Named entity extraction (NER)
automatische Sachgebietszuordnung
Relation Extraction fr IE
User and community profiles
... ... ...
Einfhrung
12 Prof. Dr. G. Heyer Modul Linguistische Informatik
79312 Emmendingen
DV - Expect GmbH LABORSYSTEME
Herbolzheim Belchenstr. 44
HRB 662 K - 06. November 2001
Neueintragungen
HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit
beschrnkter Haftung. Gesellschaftsvertrag vom 28. August 2001, gendert in 1 (Firma) am 09. Oktober 2001. Gegenstand
des Unternehmens ist die Montage von medizinischen Gerten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag
fr Unternehmen der Gertemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen
fr Personen- und Gterbefrderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten.
Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschftsfhrer. Ist nur ein Geschftsfhrer bestellt,
vertritt er die Gesellschaft allein. Sind mehrere Geschftsfhrer bestellt, wird die Gesellschaft durch zwei Geschftsfhrer
gemeinschaftlich oder durch einen Geschftsfhrer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis
und Befreiung von den Beschrnkungen des 181 BGB kann erteilt werden. Geschftsfhrer sind Vidko Umek, geb. am 7.
Mrz 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt
und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschften mit sich selbst oder als Vertreter eines Dritten
uneingeschrnkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Hhe von
12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schtzwert: 14 600,-- EUR, erbracht;
im brigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im
Bundesanzeiger.
Beispiel: Ortsnamenserkennung
Einfhrung
13 Prof. Dr. G. Heyer Modul Linguistische Informatik
79312 Emmendingen
DV - Expect GmbH LABORSYSTEME
Herbolzheim Belchenstr. 44
HRB 662 K - 06. November 2001
Neueintragungen
HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit
beschrnkter Haftung. Gesellschaftsvertrag vom 28. August 2001, gendert in 1 (Firma) am 09. Oktober 2001.
Gegenstand des Unternehmens ist die Montage von medizinischen Gerten und Elektronikteilen und deren Vertrieb, auch im
Lohnauftrag fr Unternehmen der Gertemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von
Ersatzteilen fr Personen- und Gterbefrderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food
Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschftsfhrer. Ist nur ein
Geschftsfhrer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschftsfhrer bestellt, wird die Gesellschaft
durch zwei Geschftsfhrer gemeinschaftlich oder durch einen Geschftsfhrer in Gemeinschaft mit einem Prokuristen
vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschrnkungen des 181 BGB kann erteilt werden.
Geschftsfhrer sind Vidko Umek, geb. am 7. Mrz 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979,
Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von
Rechtsgeschften mit sich selbst oder als Vertreter eines Dritten uneingeschrnkt zu vertreten ( 181 BGB). Nicht
eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Hhe von 12 500,-- EUR durch Einbringung ihres PKW
Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schtzwert: 14 600,-- EUR, erbracht; im brigen wird auf die eingereichten
Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.
3
Beispiel: Erkennung rechtsrelevanten Vokabulars
Einfhrung
14 Prof. Dr. G. Heyer Modul Linguistische Informatik
79312 Emmendingen
DV - Expect GmbH LABORSYSTEME
Herbolzheim Belchenstr. 44
HRB 662 K - 06. November 2001
Neueintragungen
HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit
beschrnkter Haftung. Gesellschaftsvertrag vom 28. August 2001, gendert in 1 (Firma) am 09. Oktober 2001. Gegenstand des
Unternehmens ist die Montage von medizinischen Gerten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag fr
Unternehmen der Gertemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen fr
Personen- und Gterbefrderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten.
Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschftsfhrer. Ist nur ein Geschftsfhrer bestellt,
vertritt er die Gesellschaft allein. Sind mehrere Geschftsfhrer bestellt, wird die Gesellschaft durch zwei Geschftsfhrer
gemeinschaftlich oder durch einen Geschftsfhrer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis
und Befreiung von den Beschrnkungen des 181 BGB kann erteilt werden. Geschftsfhrer sind Vidko Umek, geb. am 7. Mrz
1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt,
die Gesellschaft bei der Vornahme von Rechtsgeschften mit sich selbst oder als Vertreter eines Dritten uneingeschrnkt zu
vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Hhe von 12 500,-- EUR durch
Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schtzwert: 14 600,-- EUR, erbracht; im brigen wird auf die
eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.
Beispiel: Erkennung von Firmenzweck
Einfhrung
15 Prof. Dr. G. Heyer Modul Linguistische Informatik
79312 Emmendingen
DV - Expect GmbH LABORSYSTEME
Herbolzheim Belchenstr. 44
HRB 662 K - 06. November 2001
Neueintragungen
HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit
beschrnkter Haftung. Gesellschaftsvertrag vom 28. August 2001, gendert in 1 (Firma) am 09. Oktober 2001.
Gegenstand des Unternehmens ist die Montage von medizinischen Gerten und Elektronikteilen und deren Vertrieb, auch im
Lohnauftrag fr Unternehmen der Gertemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von
Ersatzteilen fr Personen- und Gterbefrderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food
Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschftsfhrer. Ist nur ein
Geschftsfhrer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschftsfhrer bestellt, wird die Gesellschaft durch
zwei Geschftsfhrer gemeinschaftlich oder durch einen Geschftsfhrer in Gemeinschaft mit einem Prokuristen vertreten.
Einzelvertretungsbefugnis und Befreiung von den Beschrnkungen des 181 BGB kann erteilt werden. Geschftsfhrer sind
Vidko Umek, geb. am 7. Mrz 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind
einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschften mit sich selbst oder als
Vertreter eines Dritten uneingeschrnkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat
ihre Einlage in Hhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299,
Schtzwert: 14 600,-- EUR, erbracht; im brigen wird auf die eingereichten Unterlagen Bezug genommen.
Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.
Beispiel: Erkennung numerischer Angaben (Zeit, Geld, , HR-Nr.)
Einfhrung
Prof. Dr. G. Heyer Modul Linguistische Informatik
Taxonomies
Hierachical organization of concepts
Domains: patents, computer science,
medical science
www.wipo.int
Tasks
Assignment of phrases to taxonomy concepts
Automatic generation of taxonomies
Einfhrung
Prof. Dr. G. Heyer Modul Linguistische Informatik
Question Answering
Einfhrung
Prof. Dr. G. Heyer Modul Linguistische Informatik
Information Extraction
http://joboter.de/
Identify
Names Locations Institutions Points in time, dates Amounts of money
Einfhrung
19 Prof. Dr. G. Heyer Modul Linguistische Informatik
1) Kette von Buchstaben: -b-e-r-d-e-m-A-t-l-a-n-t-i-k-b-e-f-a-n-d-s-i-c-h-e-i-n-b-a-r-o-m-e-t-r-i-s-c-h-e-s-M-i-n-i-m-u-m
2) Kette von Silben: ber-dem-At-lan-tik-be-fand-sich-ein-ba-ro-me-tri-sches-Mi-ni-mum
3) Kette von Morphemen: ber-dem-Atlant-ik-be-fand-sich-ein-bar-o-metr-isch-es-Minim-um
4) Kette von Wortformen: ber-dem-Atlantik-befand-sich-ein-barometrisches-Minimum
5) Kette von Phrasen: ber dem Atlantik - befand sich - ein barometrisches Minimum
Beispiel fr Linguistische Ebenen
Einfhrung
20 Prof. Dr. G. Heyer Modul Linguistische Informatik
Linguistische Ebenen
Explanandum
Laute (tokens)
Lautgruppen
Phonem: kleinste bedeutungs-
unterscheidende Einheit
Gruppen von Phonemen
Morphem: kleinste bedeutungstragende
Einheit
Allomorphe: bedeutungsquivalente
Morpheme
Bsp.: sprech={sprech, sprich, sprach, ...}
Explanans
Phonetik
Phonologie
Morphologie
Einfhrung
21 Prof. Dr. G. Heyer Modul Linguistische Informatik
Linguistische Ebenen
Gruppen von Morphemen
Wortformen: flektierte Formen eines
Wortes
Wort: quivalenzklasse v. Wortformen
Gruppen von Wrtern
Phrasen: zulssige Kombination von
Wortformen
Stze: grammatisch vollstndige
Sequenz von Phrasen
Aussagen: wahrheitsfhige Stze
Sprechakte: zustandsverndernd
Lexikon
Syntax
Semantik /
Pragmatik
Einfhrung
Phonetische Analyse
MAUS service (BAS)
https://webapp.phonetik.uni-muenchen.de/BASWebServices/index.html
22 Prof. Dr. G. Heyer Modul Linguistische Informatik
Einfhrung
23
Online Ressourcen Daten und Verfahren
http://wortschatz.informatik.uni-leipzig.de/
http://corpora.informatik.uni-leipzig.de/
http://www.nltk.org/data
http://alias-i.com/lingpipe/index.html
http://asv.informatik.uni-leipzig.de/asv/methoden
http://nltk.googlecode.com/svn/trunk/doc/api/index.html
Prof. Dr. G. Heyer Modul Linguistische Informatik
http://wortschatz.informatik.uni-leipzig.de/http://wortschatz.informatik.uni-leipzig.de/http://wortschatz.informatik.uni-leipzig.de/http://corpora.informatik.uni-leipzig.de/http://corpora.informatik.uni-leipzig.de/http://corpora.informatik.uni-leipzig.de/http://asv.informatik.uni-leipzig.de/asv/methodenhttp://asv.informatik.uni-leipzig.de/asv/methodenhttp://asv.informatik.uni-leipzig.de/asv/methodenEinfhrung
24 Prof. Dr. G. Heyer Modul Linguistische Informatik
Grewendorf/Hamm/Sternefeld, Linguistisches Wissen, Suhrkamp (stw 695), Frankfurt (13) 2004 C.Manning/H.Schtze, Foundations of Statistical Natural Language Processing, MIT Press 2000 D.Jurafsky/J.Martin, Speech and Language Processing, Prentice Hall, NY 2000 Computerlinguistik im Internet, u.a. http://www.sil.org
http://www.aclweb.org
Literaturempfehlung