34
マルチモーダル対話システム開発手法 多様な端末からWebサービスを利用する MMI 記述言語と MMI システム MMI システムのための プロトタイピングツール 新田 恒雄 (豊橋技術科学大学)

マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

マルチモーダル対話システム開発手法

■ 多様な端末からWebサービスを利用する

■ MMI 記述言語と MMI システム

■ MMI システムのための

プロトタイピングツール

新田 恒雄 (豊橋技術科学大学)

Page 2: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

Issues on Interaction with Web

■ The coming of heterogeneous devicesand interaction manner

• access by :PC, Mobile phone, PDA, AutoPC, DTV, …

• interaction with:modality-rich terminals, mixed initiative, ...

Page 3: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

Our Purpose: Seamless Services over Internet

Ex. On-line Shopping Devices - order goods at Kiosk ..... touch panel- confirm the order with a mobile phone ..... voice- change the order at home ..... DTV remote terminal

XML Document Server(Contents ; View ; Interaction)

Page 4: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

XML Document Server(Contents ; View ; Interaction)

How to do it?

<xhtml ........

<head>

VoiceXML

</head>

<body>

........

CSSCSS

<xhtml .......

Form

 <salt: ......

Page 5: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

CSS

XISL: Extensible Interaction-Sheet Language

CSS

<xhtml .......

Form

<xisl>

<dialog>

<exchange>

........

contents-independent

<xhtml .......

Form

VoiceXML

........

remodels VoiceXML to meet MMI requirements

Page 6: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

XISL: Device-Independent - 1/3no modality-specific tag : input modality<input type=“speech” event=“recog” target=“grammar.gxml”

match=“/grammar/goods” return=“goods_name”>

<param name=“mode”>data</param>

</input>

<input type=“dtmf” event=“push” target=“grammar.gxml”

match=“/grammar/goods_select”return=“goods_name”>

<param name=“mode”>digit</param>

</input>

...........

Page 7: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

XISL: Device-Independent - 2/3

Front-end Module

<input ….. >type: speechevent:recognize recognizegrammar rule:

introductionreturn: word1

<input ….. >

type: pointing:

ASR

Pointing

Keyboard

Hello!

Helloword

1: Hell

ogrammar

type: speechevent: recognizetarget: ***.xmlmatch: /pagereturn:

word1:Hello

Dialog Manager

Page 8: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

XISL: Device-Independent - 3/3

no modality-specific tag : output modality

type event modewindow open, close, …speech play, stop, … TTS, rec_speech, …video play, stop, …audio play, stop, …agent move, speak, …

Page 9: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

MMI Description Language: XISL

- is content ( & view ) -independent.

- has no modality-specific tagsthat enable XISL device-independent.

- has MMI control tags and attributes.

→ • realizes seamless services over internet and reuse of XML documents.

• meets modality-rich servicesand avoids patent issues.

Page 10: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

XISL enables combinatorial usage of modalities.

Sequential Parallel

← adding a new modality

Alternative

Page 11: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

<?xml version=“1.0” encoding=“Shift-JIS”?><!DOCTYPE xisl SYSTEM “xisl.dtd”><xisl version=“1.0”>

<head>.........</head><body><dialogue id = “WAP_phone”><exchange>

<operation comb = “alt”>  <input type=“dtmf” event=“push”

target=“/d_gram.gxml”match=“/d_gram/goods_select” return=“number”><param name=“mode”>digit</param>

</input><input type=“speech” event=“recognize”

target=“/gram.gxml” match=“/gram/goods_select”return=“goods_name”><param name=“mode”>data</param>

</input>< /operation >

XISL: example -1/2

Page 12: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

< action comb = “seq” ><output type=“speech” event=“play”/>

<param name=“speaker”>nancy</param><param name=“speech_text”>

You selected No. One. < /output >< call dialogue_name=“2”/ >

< /action >:::

XISL: example -2/2

Page 13: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

MMIシステムの構成図

入力インタ

フェース

出力インタ

フェース

ドキュメント管理・

インタプリタ

フロントエンド

対話シナリオコンテンツ

対話制御部

ドキュメントサーバ

入力統合・

アクション実行

端末依存の入出力モダリティ

Page 14: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

ドキュメントサーバドキュメントサーバ

一般的なWebサーバを想定

対話シナリオ,コンテンツ,表示スタイル

 を記述した各文書を格納

対話シナリオ: XISL文書

コンテンツ : XML文書

表示スタイル: XSL文書

⇒ 分離記述により,各文書の再利用性が向上

Page 15: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

XISLXISLの特徴の特徴

XMLベースの言語

対話シナリオのみを記述

利用モダリティの拡張が容易

Page 16: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

XISLXISLの記述例の記述例

<xisl application=“app-root.xisl”><dialog id=“1”> ‥ 1組の対話

<exchange>  ‥‥ 1ユニットの対話<operation comb=“par”> ‥ 一纏りの入力とその制御

<input type=“speech” target=“sample.grm” ….. /><input type=“touch” event=“click” match=“/button1”/>

</operation> ↑XML要素

<action comb=“seq”>  ‥ 一纏りの動作とその制御<output type=“agent” event=“speech”>‥‥</output><goto next=“2”/>

</action>:

Page 17: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

XISLの記述例

<xisl application=“app-root.xisl”><dialog id=“1”>

<exchange><operation comb=“par”>

<input type=“speech” target=“sample.grm” ….. /><input type=“touch” event=“click” match=“/button1”/>

</operation> ↑<input>の属性値は端末毎に自由に規定

<action comb=“seq”><output type=“agent” event=“speech”>‥‥</output><goto next=“2”/>    ↑<output>の属性値と要素内容は

</action>               端末毎に自由に規定

Page 18: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

XISLの最新仕様

<submit>タグの導入

- CGIの実行

<prompt>タグの導入

- システム主導対話の記述

ECMAScriptへの対応を検討中

http://www.vox.tutkie.tut.ac.jp/XISL/XISL.html

Page 19: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

対話制御部

アプリケーション,モダリティ双方に非依存

ドキュメントサーバとXISL文書等を授受

XISLを解釈し,対話の進行を管理

※対話制御部では<input><output>を解釈せず,

フロントエンドが解釈する

Page 20: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

対話制御部の構成

対話制御部

ドキュメントサーバ

フロントエンド

ドキュメント管理部

アクション実行部

<output>

端末依存の情報

XMLの編集

対話切替

<action>

入力制御部

GLRパーサ

入力統合部

<input>

ユーザ入力

<operation>

XISL

インタプリタ

起動命令

Page 21: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

入力統合部の動作

<dialog>内の<input>を一種の文法規則とみなし,GLRテーブルを作成

– 開始記号: <dialog>– 終端記号: <input>,タイムアウト

– 文 : <input>の系列

– 入力 <input> の系列が <operation> として

還元されると,アクション実行部に通知

Page 22: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

Dialogue Control by Using GLR TBL

REDUCE-25

REDUCE-14

SHIFT-53

SHIFT-42

ACCEPT1

SHIFT-2SHIFT-1SHIFT-30

EXCH1BUYGOODScompletetimeoutgoods_spbuy_btnGOTO TBLACTION TBLIN

State

0 SHIFT-3

3 SHIFT-5

5 REDUCE-2

Implementation -3/4

Page 23: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

フロントエンド

<input>,<output>の解釈

文法ファイルや表示ファイルの解釈

各種エンジン(音声認識など)の実行

ユーザとの直接のインタラクション

Page 24: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

PC端末の入力モダリティ

ポインティング (クリック,ドラッグ,…)

音 声 (文法に従った音声)

キーボード (キー入力)

タイマー (時間の経過)

Page 25: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

PC端末の出力モダリティ

MMIブラウザ (XMLファイルの表示など)

Webブラウザ (他サイトのHTMLの表示など)

サウンド,動画

擬人化エージェント(動作,バルーン,TTS)合成音声 (TTSによる出力)

タイマー (タイマーのセット)

Page 26: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

アプリケーション

オンラインショッピング(OLS)システム

– ユーザ認証

– 商品閲覧

– 商品説明

– 購入手続き

    :

Page 27: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

Implementation -4/4

Page 28: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

Interaction BuilderInteraction Builder

Interaction Builder(IB)

– MMIシステムのプロトタイピングツール

– GUI操作によってXISLを記述

– システム-ユーザ間の様々なモダリティを

 介したやり取りを容易に記述

オンラインショッピングシステムを対象

Page 29: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

II B: 起B: 起 動動 時時

音声入力

マウス入力

音声とマウスの      複合入力

擬人化エージェント

Page 30: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

II B:B: ページの読み込みページの読み込み

Page 31: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

II B:B: インタラクションの付与 インタラクションの付与 -- 2/62/6

Page 32: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

II B:B: インタラクションの付与 インタラクションの付与 -- 3/63/6

Page 33: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

<input type=“pointing" event="click"

match="/OLS/goods_list/category/goods[@id='23']/object/picture[1]"/>

II B:B: インタラクションの付与 インタラクションの付与 -- 4/64/6

Page 34: マルチモーダル対話システム開発手法xmlconsortium.org/wg/voice/jikken/doc/7_mmi_torikumi.pdfHello word1: Hello mar type: speech event: recognize target: ***.xml match:

Future Work- XHTML + XISL ; DOM2, XForms, XMLevent,

SMIL..

- Implementation of 3GPP applications

- MMI Requirements:more complicated usage of MMI

- Rapid-prototyping:GUI-based developer support system (IPA project)

http://www.vox.tutkie.tut.ac.jp/XISL/XISL-E.html