64
Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341 E-mail: [email protected] WWW: http://www.dfki.de/~wahlster Disambiguierung durch Wissensfusion: Grundprinzipien der Sprachtechnologie Darmstadt, 08. November 2001

Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

Embed Size (px)

Citation preview

Page 1: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

EhrenvortragTechnische Univesität Darmstadt

Wolfgang Wahlster

Fachrichtung Informatik Universität des Saarlandes &

Deutsches Forschungszentrum für Künstliche Intelligenz GmbHStuhlsatzenhausweg 3, Geb. 43.1

66123 SaarbrückenTel.: (0681) 302-5252/4162

Fax: (0681) 302-5341E-mail: [email protected]

WWW: http://www.dfki.de/~wahlster

Disambiguierung durch Wissensfusion:

Grundprinzipien der Sprachtechnologie

Darmstadt, 08. November 2001

Page 2: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen Problem der kombinatorischen Explosion der Lesarten durch

Propagierung von Alternativen über alle Verarbeitungsebenen

Durch die Unsicherheit bei der Spracherkennung entstehen Wörter-gitter mit alternativen Hypothesen, welche die Flut von Lesarten

noch weiter erhöhen

Phonetischme:r

Orthographischübersetzen

Mehrdeutigkeiten

SemantischEin - Alle

MorphologischStaubecken

Syntaktischmit dem Teleskop

PragmatischEs zieht.

LexikalischMaus

Page 3: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Verzögerte Disambiguierung Skopusmehr-deutigkeiten auf der Basis von Unterspezifikation

(A) Einen Computer benutzen alle Informatikstudenten.

(1) x (computer (x) y (informatik-student (y) benutzt (y,x)))

(2) y (informatik-student (y) x (computer (x) benutzt (x,y)))

Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung)

(3) {x: computer, y: informatik-student} (benutzt (y,x))

(B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren> (1)

(C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute> (2)

Page 4: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Verzögerung und Umkehrung der Disambiguierung durch Unterspezifikation

Vermeidung einer kombinatorischen Explosion der Lesart

Kompakte Repräsentation ohne Auswertung aller Disjunktionen

Unterstützung von nicht-monotoner Diskurssemantik mit Wait-and-See Strategie, ggf. mit Reininterpretation von Eingaben

Direkte Inferenz über unterspezifizierten Repräsentationen ist möglich

{x: computer, y: informatik-student} (benutzt (y,x))

y (ki-student (informatik-student (x))

{x: computer, y: ki-student} (benutzt (y,x))

Page 5: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Symbolische und Subsymbolische Fusion von Eingabemodalitäten

Sprach-erkennung

Gestik-erkennung

Prosodie-erkennung

Mimik-erkennung

Lippen-lesen

SubsymbolischeFusion

- Neuronale Netze- Hidden Markov

Modell

SymbolischeFusion

- Unifikation überHypothesengittern

- Bayessche Netze

Referenzauflösung und Disambiguierung

Bedeutungsrepräsentation

Page 6: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Wechselseitige Disambiguierung durch Multiple EingabemodalitätenDie kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen

Spracherkennung + Lippenlesen

höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate

Spracherkennung + Gestikerkennung (XTRA, SmartKom)

referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung

Spracherkennung + Mimikerkennung (SmartKom)

Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung

Page 7: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion von Sprach- und Mimikerkennung in SmartKomModifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus)

(1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDF-Programm.

(2) Benutzer: Echt toll.

(3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders.

(2’) Benutzer: Echt toll.

(3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?

Page 8: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Disambiguierung durch Selektions-restriktionen und Weltwissen

Vater zu einem Service-Roboter im Cyber-Restaurant:

(1) Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau.

(A) trinkt (Agens: Apfelschorle, Objekt: Tochter) trinkt (Agens: Weinschorle, Objekt: Frau)

Weltwissen: Apfelschorle, Weinschorle Getränk

Tochter, Frau Mensch

Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk)

(B) trinkt (Agens: Tochter, Objekt: Apfelschorle) trinkt (Agens: Frau, Objekt: Weinschorle)

Page 9: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 10: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 11: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 12: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 13: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 14: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 15: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 16: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 17: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 18: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 19: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 20: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 21: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 22: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 23: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 24: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 25: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in SmartKom

Page 26: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Page 27: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Page 28: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Welche Spielfilme laufen den

heute abend im Fernsehen?

Kombination von Sprache und Gestik in SmartKom

Ich zeige ihnen eine Übersicht

über die Filme, die heute abend im

Fernsehen laufen.

Da ist nichts für mich dabei.

Dann möchte ich doch lieber insKino gehen.

Hier sehen sieeine Übersicht

über das Programmder Heidelberger Kinos.

Den würde ichgerne sehen.

Wo kommt der?

Auf der Karte sinddie Kinos markiert, in denen der Film „Einekleine Weihnachts-geschichte“ läuft.

Page 29: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Multimodale Ein- und Ausgabe in SmartKom

Da würd‘ ichgern

reservieren.

EineReservierungist in diesem

Kino nichtmöglich.

Dann ein anderes Kino.

Das da vielleicht.

Auf der Übersicht sehen sie die Anfangs-

zeiten des Films „Eine kleine

Weihnachtsgeschichte“im Kino „Schloß“.

Da würd‘ ichgern

reservieren.

Zeigen siemir wo

sie sitzenwollen.

Ich hätte gern zwei

Plätze hier.Ist das so richtig? Richtig.

Ich habe die gewünschte

Reservierung für Sie durchgeführt.

Ihre Reservierungs-nummer ist 635.

Sie können die Karten bis

spätestens eine halbe Stunde vor

Vorstellungsbeginn an der Kinokasse

abholen.

Gut. Das war‘s.

Dankeschön.Tschüss.

AufWiedersehen

Page 30: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Verbmobil umfaßt alle drei Stufen der Sprachverarbeitung

Akustische

Sprachanalyse

Wortlisten

Grammatik

Wortbe-

deutungen

Gesprächs-Kontext

Wissen über das Gesprächs-

thema

Was hatder Sprecher

gesagt?100

Alternativen

Was hatder Sprecher

gemeint?10

Alternativen

Was willder Sprecher?

Eindeutiges Verstehenim Gesprächs-

zusammenhang

Red

uktio

n vo

n U

nsic

herh

eit

Sprachanalyse

Spracherkennung

Gesprochene Eingabe

Sprachanalyse

Sprach-

ver-

stehen

Page 31: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Handlungsplanungfür Roboter

Künstliche Intelligenz

Ideengeschichte planbasierter Ansätze der Dialogführung

Graphische Akte

Semiotik /Kommunikationstheorie

Gestische/Mimische

AkteSemiotik /

Kommunikationstheorie

PlanbasierteMensch-Maschine

DialogeComputerlinguistik /

Künstliche Intelligenz

Planbasierte Methoden derMultimodalen Dialogführung

Computerlinguistik / Künstliche Intelligenz

Sprechakttheorie

Sprachphilosophie /Linguistik

Page 32: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Plangenerierung und Planerkennung als duale Prozesse

Planungsalgorithmen

Gegeben:

Gesucht:

Anfangsspezifikation Zielspezifikation

Folge von Aktionen, um von Anfang zu Ziel zu gelangen

Wie kann ich mein Kommunikationsziel erreichen?

Planerkennungsalgorithmen

Gegeben:

Gesucht:

Anfangssituation Folge beobachteter

Aktionen

Zielspezifikation

Welches Kommunikationsziel verfolgt mein Dialogpartner?

Operator-basierte Methoden Deduktive Methoden Graph-basierte Methoden

Page 33: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

System

Eingabe-kanäle

Ausgabe-kanäle

Speicherung

FestplatteCD-ROM

MEDIUM (Physikalischer Informationsträger)

MODALITÄT(Menschliche Sinne)

Sprache Graphik Gestik

CODE (Symbolsysteme)

Mimik

Code, Medium und Modalität

Visuell

Taktil

Akustisch

Haptisch

Benutzer

Page 34: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

GestenBilder/

Graphiken

SemantischeRepräsentations-

sprache

Bild-beschreibungs-

sprache

Gesten-beschreibungs-

sprache

OntologienDBMS/KBMS/WWW

GraphischesBildverstehen

Graphik-generierung

GenerationGesten-analyse

Gesten-generierungParsing

Modalitätsspezifische Repräsentations-sprachen als Zwischenstufe zur Medienfusion

SprachlicheÄußerungen

Wissensrepräsentations-sprache

Inferenzkomponente

Page 35: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Benutzer-Modellbasierte

Schnittstellengenerierung

Dialogmanagement

Medienkoordination

Analyse multimodaler Eingaben

Generierung multimodaler Ausgaben

Adaptive Interaktion

Kooperativer Dialog

Layout und Disambiguierung

Interaktion mit gemischter Initiative

KI-Methoden für Intelligente Benutzerschnittstellen

Wissensrepräsentation

Plangenerierung u.-erkennung

Zeitliches/RäumlichesSchließen

KI

Sprachverstehen

Gestikverstehen

Bildverstehen

Sprachgenerierung

Graphikgenerierung

Gestikgenerierung

Benutzermodellierung

Diskursmodellierung

Constraint-Verarbeitung

Agenten-Modelling

Schnittstellen

Page 36: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Benutzer

Information,

Anwendungen,

Kommunikations-partner

Eingabevor-verarbeitung

Ausgabe-realisierung

Medienfusion

MultimodaleInteraktion

Kontext-abhängige

Aktionsplanung

Diskurs-modellierung

Präsentations-design

Intentions-erkennung

MediaAnalysis

Design

Modalitäts-spezifische

Analysatoren

MultimodalesMedien-design

Sprache

Graphik

Gestik/ Mimik

Biometrie

Sprache

Graphik

Gestik

AnimierterPräsentation

s-agent

Repräsentation und Inferenz

Benutzer-modell

Diskurs-modell

Domänen-modell

Aufgaben-modell

Medien-modell

An

wen

du

ng

ssch

nit

tste

lle m

it

An

wen

du

ng

smo

del

l

Grobarchitektur von SmartKom

Page 37: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger

Benutzer: Ich möchte nach Heidelberg fahren.

Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren?

Benutzer: Die schnellste.

Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg.

SmartKom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien

Page 38: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger

Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten.

User: Ich möchte mehr Information über diese Kirche.

Smartakus: Hier siehst die Webseite über die Peterskirche.

User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche.

Smartakus: Auf dieser Karte habe ich den Weg markiert.

Page 39: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Vom Sprachdialog zum Multimodalen Dialog

SmartKom

UMTS-Mobilgerät der dritten Generation

Sprache, Graphik, Gestik

Verbmobil

Klassische Mobiltelephoni

e

Reine Sprache

Page 40: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Multomodale Kommunikation mit Unterhaltungselektronik

Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten?

Smartakus: CNN und NTV zeigen gearde Nachrichten.

User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf.

Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten.

Beispiel: Zugriff auf digitale Programmführer

Page 41: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

neutral

Videobasierte Mimikerkennung auf der Basis von Eigenfaces

ärgerlich

Page 42: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

ärgerlichneutral

Sprecherunabhängie Emotionserkennung

Page 43: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Auslösen der deiktischen Interpretation von Ortsangaben durch fokusierende Zeigegesten (Wahlster 1991)

1

2

3

4

Ersetze das untere Dreieck durch das Viereck = Ersetze (1) durch (4) intrinsischer Gebrauch von ‘untere‘ bezogen auf Leserichtung der Bildschirmseite

1

2

3

4

Ersetze das untere Dreieck durch das Viereck = Ersetze (2) durch (4) deiktische Interpretation von ‘untere‘ bezogen auf Position des Zeigers

Page 44: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Fokusierende Geste zur Disambiguierung derSpracheingabe (Wahlster 1991)

„Warum soll ich das ‚A‘ löschen?“

B A 2

A

A

C

E

1

3

X

Y

Z

Page 45: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Parasprachliche Deixis in XTRA (Wahlster 1991)

Berücksichtigung der unterschiedlichen Granularitäten von Zeigehandlungen:- Bleistiftspitze- Zeigefinger- Kombination aus Zeigefinger und Mittelfinger

(realisiert durch verschiedene Formen und Größen der Maus)

Verarbeitung von ungenauen Zeigehandlungen (Überdeckung mehrererRegionen bei großflächigem Zeigemedium)

Auswertung von pars-pro-toto Deixis

Verarbeitung von Zeigegesten unter Textteile, die nicht verdeckt werdensollen

Vereinfachungen:

Benutzer und System verfügen über einen gemeinsamen, eng begrenzten Zeigeraum

Verzicht auf die Analyse von- hinweisenden Kopfbewegungen- der Blickrichtung als Zeigehandlung- nicht-taktilen Zeigehandlungen

Page 46: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Synergetische Integration von Sprach- und GestikeingabeVorteile:

Für den Sender:

ökonomische Referentenspezifikation

- Die Beschreibung wird kürzer und darf unterspezifiziert sein.

Für den Empfänger:

schnelle Referentenidentifikation

- Orientierung in die gezeigte Richtung und Sprachverarbeitung

erfolgen gleichzeitig.

Sprach- und Gestikeingabe disambiguieren sich wechselseitig.

Nachteile:

Durch die Möglichkeit des Zeigens nimmt die Häufigkeit elliptischer Äußerungen zu ( komplexere Sprachanalyse).

Mehrfaches Zeigen in einer Äußerung kann zu Zuordnungsproblemen

führen.

Page 47: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Zeigegesteninterpretation in XTRA (eXpert TRAnslator, Wahlster et al. 1986)

Page 48: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Geplanterreferentieller

Akt

Gestenanalyse

TACTILUS

Ja Nein

Minimale Ambiguitätder Geste?

Antizipationsrückkopplung bei derGestengenerierung

Realisierung der Geste

Geplante Geste

Rückkopplungs-schleife

Gestengenerierung

ZORA

Page 49: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Referenzierende und fokusierende Wirkung von Gesten (Wahlster 1991)

Eingabe mit einer Hand:

Fokusierungsakt: z.B. Stift hinlegen, so daß er auf Region zeigt

Referenzakt: z.B. danach wird mit Zeigefinger auf Objekt in der Region gezeigt

Eingabe mit zwei Händen (simultanes Zeigen):

Fokusierungsakt: z.B. Zeigefinger einer Hand markiert eine Region

Referenzakt: z.B. Zeigefinger der anderen Hand zeigt Objekt in markierter Region

Page 50: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Sprach-erkennung

Gesten-erkennung

MultimodalerChart Parser

Unifikations-basierte

MultimodaleGrammatik

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

Sprach-analyse

Gesten-analyse

Anwendungsschnittstelle

Page 51: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

“Platziere das hier!”

Gesten-analyse

[object1]:selection

area:type:content

int(10,12):time

sturespatial_ge:cat

[object2]:selection

area:type:content

int(14,15):time

sturespatial_ge:cat

Sprach-analyse

end:rest[4],5)]],[follow([5:sconstraint[3]:selection

area:type:content

[5]:timesturespatial_ge:cat

:first

:rest

[4],5)](10,13),follow(int[4])nt(10,13),[overlap(i:sconstraint

[2]:selectionarea:type:content

[4]:timesturespatial_ge:cat

:first

:mmsubcat

[3]:selectionlocation:type:location

[2]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

Typisierte Merkmalstrukturen fürSprachrepräsentation und Gestikeingabe

nach nicht mehr als 5 Sekunden

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

Page 52: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

end:rest[4],5)]],[follow([5:sconstraint[3]:selection

area:type:content

[5]:timesturespatial_ge:cat

:first

:rest

[4],5)](10.13),follow(int[4])nt(10,13),[overlap(i:sconstraint

[2]:selectionarea:type:content

[4]:timesturespatial_ge:cat

:first

:mmsubcat

[3]:selectionlocation:type:location

[2]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

“Platziere das hier!”

Multimodaler

Subkategorisierungsrahmen

Spezifikation der erwarteten

Gesten

Zeitliche Constraints über

den Gesten

,

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

Page 53: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

end:rest[4],5)]],[follow([5:sconstraint[3]:selection

area:type:content

[5]:timesturespatial_ge:cat

:first

:rest

[4],5)](10.13),follow(int[4])nt(10,13),[overlap(i:sconstraint

[2]:selectionarea:type:content

[4]:timesturespatial_ge:cat

:first

:mmsubcat

[3]:selectionlocation:type:location

[2]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

[object1]:selectionarea:type:content

int(10,12):time

sturespatial_ge:cat

[object2]:selectionarea:type:content

int(14,15):time

sturespatial_ge:cat

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

“Platziere das hier!”

Page 54: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

end:rest,5)]int(10,12)],[follow([5:sconstraint

[3]:selectionarea:type:content

[5]:timesturespatial_ge:cat

:first

:mmsubcat

[3]:selectionlocation:type:location

[object1]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

[object2]:selectionarea:type:content

int(14,15):time

sturespatial_ge:cat

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

“Platziere das hier!”

Page 55: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

[object2]:selectionlocation:type:location

[object1]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

“Platziere das hier!”

Page 56: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Verzahnte Analysearchitektur(MVPQ, © Johnston 2000, AT&T)

“platziere” “das” “hier”

Sprachanalyse

[2,3]:chart[3],5)}(10,11),follow(int[3])nt(10,11),{overlap(i

[3]:time[2]:selection

area:type:content

sturespatial_ge:cat

:mmsubcat

[2]:selectionlocation:type:content

int(10,11):timeyes:deictic

deictic_np:cat

[1,2]:chart[3],5)}(10,11),follow(int[3])nt(10,11),{overlap(i

[3]:time[2]:selection

area:type:content

sturespatial_ge:cat

:mmsubcat

[2]:selectionentity:type:content

int(10,11):timeyes:deictic

deictic_np:cat

end:rest[2]:content

np:cat:first:rest

[1]:contentnp:cat:first

:subcat

location:type[2]:locationentity:type[1]:object

move:type:content

no:deicticv:cat “platziere” “das” “hier”

Page 57: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

[1,2]:chart[3],5)}(9,10),follow(int[3])nt(9,10),{overlap(i

[3]:time[2]:selection

area:type:content

sturespatial_ge:cat

:mmsubcat

[2]:selectionentity:type:content

int(9,10):timeyes:deictic

deictic_np:cat

“das”

[object1]:selectionarea:type:content

int(9,11):time

sturespatial_ge:cat

[1,2]:chart:mmsubcat

[object1]:selectionentity:type:content

no:deicticnp:cat

MultimodalerChart Parser

Verzahnte Analysearchitektur(MVPQ, © Johnston 2000, AT&T)

Page 58: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

[2,3]:chart[3],5)}(10,11),follow(int[3])nt(10,11),{overlap(i

[3]:time[2]:selection

area:type:content

sturespatial_ge:cat

:mmsubcat

[2]:selectionlocation:type:content

int(10,11):timeyes:deictic

deictic_np:cat

“hier”

[object2]:selectionarea:type:content

int(12,13):time

sturespatial_ge:cat

Multimodaler Chart Parser

[2,3]:chart:mmsubcat

[object2]:selectionlocation:type:content

no:deicticnp:cat

Verzahnte Analysearchitektur(MVPQ, © Johnston 2000, AT&T)

Page 59: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

[2,3]:chart:mmsubcat

[object1]:selectionentity:type:content

no:deicticnp:cat

end:rest[2]:content

np:cat:first:rest

[1]:contentnp:cat:first

:subcat

location:type[2]:locationentity:type[1]:object

move:type:content

no:deicticv:cat “platziere”

“das” “hier”

[2,3]:chart:mmsubcat

[object2]:selectionlocation:type:content

no:deicticnp:cat

[object2]:selectionlocation:type:location

[object1]:selectionentity:type:object

move:type

:content

no:deicticv:cat

Sprachanalyse

Verzahnte Analysearchitektur(MVPQ, © Johnston 2000, AT&T)

Page 60: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Konjunktion (MVPQ, © Johnston 2000, AT&T)

“Platziere das und das hier!”

“PLATZIERE” “DAS” “DAS”“UND” “HIER”

“DAS UND DAS”

Anwendungsschnittstelle

+ + +

Page 61: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Deiktische Numerale(MVPQ, © Johnston 2000, AT&T)

“Diese vier!”

Page 62: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Using Context and World Knowledgefor Semantic Transfer

All other dialog translation systems translate word-by-wordor sentence-by-sentence.

1Nehmen wir dieses Hotel, ja. Let us take this hotel.

Ich reserviere einen Platz. I will reserve a room.

2Machen wir das Abendessen dort. Let us have dinner there.

Ich reserviere einen Platz. I will reserve a table.

3 Gehen wir ins Theater. Let us go to the theater.

Ich möchte Plätze reservieren. I would like to reserve seats.

Example: Platz room / table / seat

Page 63: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Von der Eingabeschallwelle zur Ausgabeschallwelle

Schallwelle

MöglichePhoneme

MöglicheWörter

MöglicheSätze

Spracherkennung

MöglicheSätze

GramatischeStruktur

Wort-bedeutungen

Satz-bedeutungen

Sprachanalyse

Satz-bedeutungen

Diskursbedeutung in

Quellsprache

Wortwahl inZielsprache

Sprachverstehenund Übersetzung

Diskursbedeutung in Zielsprache

Wörter in Zielsprache

Satzgenerierung

Sprachsynthese

Satzmelodie

Generierung undSynthese

Page 64: Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

© W. Wahlster, DFKI

Audiodaten

Worthypothesen-graph mit prosodischer

Annotation

VITsUnterspezifizierte

Diskurs-repräsentation

Kommando-erkenner

Spracherkennerfür Spontansprache

Kanal- und Sprecheradaption

Prosodie-analyse

StatistischerParser

Dialogakt-erkennung

Chunk Parser

HPSGParser

SemantischeKonstruktion

Robuste Dialog-semantik

SemantischerTransfer

Generierung

Eine Multi-Blackboard Architektur zur Kombination von flachen und tiefen Verarbeitungspfaden