of 65/65
Perspektiven der Informatik Ringvorlesung WS 2002/2003 Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341 E-mail: [email protected] WWW: http://www.dfki.de/~wahlster Perspektiven in der Sprachtechnologie: Hörende, sprechende und verstehende Computer

Perspektiven der Informatik Ringvorlesung WS 2002/2003 Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum

  • View
    104

  • Download
    0

Embed Size (px)

Text of Perspektiven der Informatik Ringvorlesung WS 2002/2003 Wolfgang Wahlster Fachrichtung Informatik...

  • Folie 1
  • Perspektiven der Informatik Ringvorlesung WS 2002/2003 Wolfgang Wahlster Fachrichtung Informatik Universitt des Saarlandes & Deutsches Forschungszentrum fr Knstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrcken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341 E-mail: [email protected] WWW: http://www.dfki.de/~wahlster Perspektiven in der Sprachtechnologie: Hrende, sprechende und verstehende Computer
  • Folie 2
  • W. Wahlster, DFKI Hauptziel: Wir wollen durch Knstliche Intelligenz die Technik menschenfreundlicher machen! Speziell: Der Mensch soll sich nicht dem Computer anpassen mssen, sondern umgekehrt soll sich der Computer dem Menschen anpassen! Bisher: Fr den Mensch schwer zu erzeugen: Fr den Computer leicht zu verstehen: for ( int i = 2; i < finalBit; i++ ) if ( sieve.get( i ) ) for ( int j = 2 * i; j < size; j += i ) sieve.clear( j ); Knstliche Sprache, z.B. Java Fr den Computer schwer zu verstehen: Fr den Mensch leicht zu erzeugen: Neu: Ist 677 eine Primzahl? Natrliche Sprache, z.B. Deutsch
  • Folie 3
  • W. Wahlster, DFKI Warum ist Sprachverstehen fr den Computer so schwer? Wortgrenzen gehen im Sprachflu unter: Der Mensch spricht ohne Punkt und Komma Bedeutung(1) So machen wir das. Vielleicht klappt es. oder(2) So machen wir das vielleicht. Klappt es? Beispiel:So machen wir das vielleicht klappt es am MontagBeispiel: amontag
  • Folie 4
  • W. Wahlster, DFKI Warum ist Sprachverstehen fr den Computer so schwer? Gleiche Schallwellen werden je nach Kontext zu verschiedenen Wrtern Beispiel: Urlauber wollen wieder me:r ans me:r Urlauber wollen wieder mehr ans Meer. Viele Menschen sprechen Dialekt Beispiel:Isch find das ntt Bedeutung(1) Ich finde das nett. oder(2) Ich finde das nicht.
  • Folie 5
  • W. Wahlster, DFKI Warum ist das Sprachverstehen fr den Computer so schwer? Bei spontaner Rede entstehen viele Versprecher Beispiel: Wir treffen uns dann am Mon, h, am Dienstag. Dialogpartner fallen dem Sprecher oft ins Wort Beispiel: Sytem: Knnen wir dann am Mittwoch zusammen zum Essen... Sprecher: Da kann ich nicht.
  • Folie 6
  • W. Wahlster, DFKI Warum ist das Sprachverstehen fr den Computer so schwer? Der Redeflu leitet hufig in die Irre Beispiel: Die Staatssekretrin lobt... Subjekt:StaatssekretrinPrdikat: lobtObjekt: ?? Viele Formulierungen sind mehrdeutig Beispiel: Wir telefonierten mit Freunden in Japan. Subjekt:MinisterprsidentPrdikat: lobtObjekt: Staatssekretrin der Ministerprsident. Bedeutung(1) Wir telefonierten (mit Freunden in Japan). oder(2) (Wir telefonierten mit Freunden) in Japan.
  • Folie 7
  • W. Wahlster, DFKI Disambiguierung: Auflsung mehrdeutiger sprachlicher uerungen Problem der kombinatorischen Explosion der Lesarten durch Propagierung von Alternativen ber alle Verarbeitungsebenen Durch die Unsicherheit bei der Spracherkennung entstehen Wrter- gitter mit alternativen Hypothesen, welche die Flut von Lesarten noch weiter erhhen Phonetisch me:r Orthographisch bersetzen Mehrdeutigkeiten Semantisch Ein - Alle Morphologisch Staubecken Syntaktisch mit dem Teleskop Pragmatisch Es zieht. Lexikalisch Maus
  • Folie 8
  • W. Wahlster, DFKI KOGNITIONS- WISSENSCHAFT Psycholinguistik Wie wird Sprache von Menschen verstanden und generiert? Knstliche Intelligenz Wie knnen die fr das Sprachverstehen bentigten kognitiven Leistungen maschinell verfgbar gemacht werden? INFORMATIK Sprachver- arbeitung Linguistik Wie knnen Sprachstrukturen mathematisch-logisch beschrieben werden? Sprachtechnologie Wie knnen effiziente, sprachverarbeitende und generierende Softwaresysteme erstellt werden?
  • Folie 9
  • W. Wahlster, DFKI System Eingabe- kanle Ausgabe- kanle Speicherung Festplatte CD-ROM MEDIUM (Physikalischer Informationstrger) MODALITT (Menschliche Sinne) SpracheGraphikGestik CODE (Symbolsysteme) Mimik Code, Medium und Modalitt Visuell Taktil Akustisch Haptisch Benutzer
  • Folie 10
  • W. Wahlster, DFKI Sprachlich- Dialogische Kommunikation Graphische Bedien- oberflchen Taktil- Gestische Interaktionsform Multimodales Bedienparadigma Die Leitvorstellung multimodaler Interaktion
  • Folie 11
  • W. Wahlster, DFKI Drei Stufen der Sprachverarbeitung Akustische Sprachanalyse Wortlisten Grammatik Wortbe- deutungen Gesprchs- Kontext Wissen ber das Gesprchs- thema Was hat der Sprecher gesagt? 100 Alternativen Was hat der Sprecher gemeint? 10 Alternativen Was will der Sprecher? Eindeutiges Verstehen im Gesprchs- zusammenhang Reduktion von Unsicherheit Sprachanalys e Spracherkennung Gesprochene Eingabe Sprachanalyse Sprach- ver- stehen
  • Folie 12
  • W. Wahlster, DFKI Ergebnis der Spracherkennung: Worthypothesengraph
  • Folie 13
  • W. Wahlster, DFKI Verzgerte Disambiguierung Skopusmehr- deutigkeiten auf der Basis von Unterspezifikation (A) Einen Computer benutzen alle Informatikstudenten. (1) x (computer (x) y (informatik-student (y) benutzt (y,x))) (2) y (informatik-student (y) x (computer (x) benutzt (y,x))) Unterspezifizierte Reprsentation (ohne Skopusdisambiguierung) (3) { x : computer, y: informatik-student } (benutzt (y,x)) (B)Das ist der Zentralrechner PDP-10. (1) (C)Oft bringen sie ihr Notebook mit in die Vorlesung. (2)
  • Folie 14
  • W. Wahlster, DFKI Mobile Dialogbersetzung fr Spontansprache Verbmobil-Server fr die Dialogbersetzung Lsung:Dreierkonferenz: Der Verbmobil-Server vermittelt zwischen zwei Mobilfunkteilnehmern
  • Folie 15
  • W. Wahlster, DFKI Mobile Dialogbersetzung ber Handy mit dem System VERBMOBIL Ergebnis von 8 Jahren Forschung mit einem Team von 100 Wissenschaftlern, 20 Produkte und 8 Spin-Off Firmen
  • Folie 16
  • W. Wahlster, DFKI Von der Eingabeschallwelle zur Ausgabeschallwelle Spracherkennung Schallwelle Mgliche Phoneme Mgliche Wrter Mgliche Stze Sprachanalyse Mgliche Stze Grammatische Struktur Wort- bedeutungen Satz- bedeutungen Sprachverstehen und bersetzung Satz- bedeutungen Diskursbedeutung in Quellsprache Diskursbedeutung in Zielsprache Wortwahl in Zielsprache Generierung und Synthese Wrter in Zielsprache Satzgenerierung Satzmelodie Sprachsynthese
  • Folie 17
  • W. Wahlster, DFKI Deutscher Zukunftspreis 2001 Preis des Bundesprsidenten fr Technik und Innovation fr Sprachverstehende Computer
  • Folie 18
  • W. Wahlster, DFKI Vom Sprachdialog zum Multimodalen Dialog SmartKom UMTS-Mobilgert der dritten Generation Sprache, Graphik, Gestik Verbmobil Klassische Mobiltelephonie Reine Sprache
  • Folie 19
  • W. Wahlster, DFKI Deep Map: Multimodaler mobiler Touristenfhrer fr Heidelberg Kooperation u.a.: EML - DFKI - ISL Mobile Dialogfhrung Lokationsadaptive Interpretation von Benutzeranfragen
  • Folie 20
  • W. Wahlster, DFKI Sprachgesteuerte 3D-Visualisierung Multimodale Prsentationsplanung (Text, Graphik, Bilder) Deep Map: Multimodaler mobiler Touristenfhrer fr Heidelberg
  • Folie 21
  • W. Wahlster, DFKI Symbolische und Subsymbolische Fusion von Eingabemodalitten Sprach- erkennung Gestik- erkennung Prosodie- erkennung Mimik- erkennung Lippen- lesen Subsymbolische Fusion - Neuronale Netze - Hidden Markov Modell Symbolische Fusion - Unifikation ber Hypothesengittern - Bayessche Netze Referenzauflsung und Disambiguierung Bedeutungsreprsentation
  • Folie 22
  • W. Wahlster, DFKI Fokusierende Geste zur Disambiguierung der Spracheingabe (Wahlster 1991) Warum soll ich das A lschen? BA2 A A C E 1 3 X Y Z
  • Folie 23
  • W. Wahlster, DFKI Die SDDP-Interaktionsmetapher fr SmartKom SDDP = Situated Delegation-oriented Dialog Paradigm Benutzer spezifiziert Wunsch delegiert Aufgabe kooperieren bei Problemen stellt Nachfragen prsentiert Resultate Personalisierter Interaktionsagent Dienst 1 IT-Dienste Dienst 3 Dienst 2
  • Folie 24
  • W. Wahlster, DFKI Welche Spielfilme laufen den heute abend im Fernsehen? Kombination von Sprache und Gestik in SmartKom Ich zeige ihnen eine bersicht ber die Filme, die heute abend im Fernsehen laufen. Da ist nichts fr mich dabei. Dann mchte ich doch lieber ins Kino gehen. Hier sehen sie eine bersicht ber das Programm der Heidelberger Kinos. Den wrde ich gerne sehen. Wo kommt der? Auf der Karte sind die Kinos markiert, in denen der Film Eine kleine Weihnachts- geschichte luft.
  • Folie 25
  • W. Wahlster, DFKI Multimodale Ein- und Ausgabe in SmartKom Da wrd ich gern reservieren. Eine Reservierung ist in diesem Kino nicht mglich. Dann ein anderes Kino. Das da vielleicht. Auf der bersicht sehen sie die Anfangs- zeiten des Films Eine kleine Weihnachtsgeschichte im Kino Schlo. Da wrd ich gern reservieren. Zeigen sie mir wo sie sitzen wollen. Ich htte gern zwei Pltze hier. Ist das so richtig? Richtig. Ich habe die gewnschte Reservierung fr Sie durchgefhrt. Ihre Reservierungs- nummer ist 635. Sie knnen die Karten bis sptestens eine halbe Stunde vor Vorstellungsbeginn an der Kinokasse abholen. Gut. Das wars. Dankeschn. Tschss. Auf Wiedersehen
  • Folie 26
  • W. Wahlster, DFKI Wechselseitige Disambiguierung durch Multiple Eingabemodalitten Die kombinierte Sprach- und Bildverarbeitung erhht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen Spracherkennung + Lippenlesen hhere Robustheit bei gestrtem Sprachsignal und niedriger Worterkennungsrate Spracherkennung + Gestikerkennung (XTRA, SmartKom) referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung Spracherkennung + Mimikerkennung (SmartKom) Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung
  • Folie 27
  • W. Wahlster, DFKI Disambiguierung durch Selektions- restriktionen und Weltwissen Vater zu einem Service-Roboter im Cyber-Restaurant: (1)Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau. (A) trinkt (Agens: Apfelschorle, Objekt: Tochter) trinkt (Agens: Weinschorle, Objekt: Frau) Weltwissen: Apfelschorle, Weinschorle Getrnk Tochter, Frau Mensch Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getrnk) (B)trinkt (Agens: Tochter, Objekt: Apfelschorle) trinkt (Agens: Frau, Objekt: Weinschorle)
  • Folie 28
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 29
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 30
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 31
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 32
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 33
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 34
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 35
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 36
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 37
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 38
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 39
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 40
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 41
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 42
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 43
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 44
  • W. Wahlster, DFKI Fusion und Allokation multipler Modalitten in SmartKom
  • Folie 45
  • W. Wahlster, DFKI Gesten Bilder/ Graphiken Semantische Reprsentations- sprache Bild- beschreibungs- sprache Gesten- beschreibungs- sprache Ontologien DBMS/ KBMS/ WWW Graphisches Bildverstehen Graphik- generierung Generation Gesten- analyse Gesten- generierung Parsing Modalittsspezifische Reprsentations- sprachen als Zwischenstufe zur Medienfusion Sprachliche uerungen Wissensreprsentations- sprache Inferenzkomponente
  • Folie 46
  • W. Wahlster, DFKI Fusion von Sprach- und Mimikerkennung in SmartKom Modifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus) (1) Smartakus: Hier sehen Sie die bersicht zum heutigen ZDF- Programm. (2)Benutzer: Echt toll. (3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders. (2)Benutzer: Echt toll. (3) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?
  • Folie 47
  • W. Wahlster, DFKI neutral Videobasierte Mimikerkennung auf der Basis von Eigenfaces rgerlich
  • Folie 48
  • W. Wahlster, DFKI rgerlichneutral Sprecherunabhngie Emotionserkennung
  • Folie 49
  • W. Wahlster, DFKI Multimodale Dialoge mit Navigat ionssystemen fr Autofahrer und Fugnger Benutzer: Ich mchte nach Heidelberg fahren. Smartakus: Wollen Sie die schnellste oder krzeste Strecke fahren? Benutzer: Die schnellste. Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrcken nach Heidelberg. SmartKom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien
  • Folie 50
  • W. Wahlster, DFKI Multimodale Dialoge mit Navigationssystemen fr Autofahrer und Fugnger Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswrdigkeiten. User: Ich mchte mehr Information ber diese Kirche. Smartakus: Hier siehst die Webseite ber die Peterskirche. User: Wie komme ich zu Fu am besten von diesem Parkplatz zu der Kirche. Smartakus: Auf dieser Karte habe ich den Weg markiert.
  • Folie 51
  • W. Wahlster, DFKI Multomodale Kommunikation mit Unterhaltungselektronik Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten? Smartakus: CNN und NTV zeigen gearde Nachrichten. User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf. Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten. Beispiel: Zugriff auf digitale Programmfhrer
  • Folie 52
  • W. Wahlster, DFKI Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, Johnston 2000, AT&T) Platziere das hier!
  • Folie 53
  • W. Wahlster, DFKI Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, Johnston 2000, AT&T) Platziere das hier!
  • Folie 54
  • W. Wahlster, DFKI Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, Johnston 2000, AT&T) Platziere das hier!
  • Folie 55
  • W. Wahlster, DFKI Sprachtechnologie im Alltag Einen Capuccino in 10 Minuten bitte! Bitte in die Winterbergstrae in Saarbrcken! Sprachgesteuerte Kaffeemaschine Sprachdialog mit Fahrzeugelektronik Sprachbasierte Musikauswahl Diktat von Emails Sende folgende Email an Meyer: Sehr geehrter Herr Meyer. Bitte senden Sie dringend die Agenda fr Montag. Ich wrde gerne Mozarts Klavierkonzert Nummer 3 hren!
  • Folie 56
  • W. Wahlster, DFKI Klassische Sprachsteuerung im Auto: Kein spontansprachlicher Dialog - Sprachaktivierungstaste
  • Folie 57
  • for UMTS-based Multimodal Speech Services in Germany Mobile Network Internet Content Provide r Gigastream UMTS Navigation Switch E1/ATM RNC Munic h Node B at DFKI Saarbrcken PSTN, Telephone System UMTS-Doit Server Kooperation zwischen und Erstes UMTS-Anwendungstest- und Evaluationszentrum
  • Folie 58
  • W. Wahlster, DFKI Embassi: Sprachbasierte Musikwahl
  • Folie 59
  • W. Wahlster, DFKI ORBA Auskunftsdienst: ShopFinder Wo gibt es nchsten Geldautomaten ? ORBA greift auf online Produktkataloge, Shop- und Branchenverzeichnisse zu und lokalisiert die im jeweiligen Erreichbarkeitsradius liegenden Shops, von denen bekannt ist, dass sie das gesuchte Produkt vorhalten. ShopFinder ist kombinierbar mit: - multimedialer Produktinformation - Routenplanung und Zielfhrung
  • Folie 60
  • W. Wahlster, DFKI ORBA erinnert an vorher notierte Kaufwnsche, sobald der Benutzer an dem explizit angegeben Shop vorbeikommt bzw. sich irgendeinem Shop nhert, von dem bekannt ist, dass er das gesuchte Produkt vorhlt. ActiveList ist kombinierbar mit: - multimedialer Produktinformation; -mCoupon Aktionen; ORBA Erinnerungsdienst: ActiveList Erinnere mich an die Batterie fr die Uhr, wenn ich an einem entsprechenden Shop vorbeikomme !
  • Folie 61
  • W. Wahlster, DFKI ORBA Ortungsdienst: PartnerRadar Wo (...) stecken Lisa und Tom ? ORBA hilft beim Aufspren und der Zusammenfhrung von Familien- Gruppenmitgliedern, sofern diese ebenfalls mit einem Mobilgert ausgestattet sind, und ihre Ortung gestatten. PartnerFinder ist kombinierbar mit: -Routenplanung und Zielfhrung -Geschftsempfehlungen, z.B. zentral gelegenes Restaurant als Treffpunkt.
  • Folie 62
  • W. Wahlster, DFKI Zeige mir alle Beitrge der Tagesschau, in denen Regierungsmitglieder zur Green Card sprachen! Ich mchte gerne einen Termin mit Doktor Kuremastu nchste Woche in Kyoto ausmachen! Sprachtechnologie im Alltag Was hat der Ministerprsident auf der COLING zur Sprachtechnologie gesagt? Sprachgesteuerte Suche in digitalen Fernseharchiven Inhaltliche Suche in privaten Audioarchiven Dialogbersetzung
  • Folie 63
  • W. Wahlster, DFKI Sprachtechnologie fr die Post-PC ra Personalisierte Benutzeroberflchen In der Hand tragbar Mobile Computing Am Krper anziehbar Wearable Computing Im Krper implantierbar Biohybrid Computing
  • Folie 64
  • W. Wahlster, DFKI Offene Forschungsprobleme Probleme der maschinellen Lernverfahren Teuere Datensammlung Kognitiv unrealistische Trainingsdaten Datenknappheit Probleme mit manuell erstellten Wissensquellen Mangelnde Robustheit Domnenabhngigkeit Geringe Skalierbarkeit
  • Folie 65
  • W. Wahlster, DFKI 2002 DFKI Design by R.O. Vielen Dank fr Ihre Aufmerksamkeit