マルチモーダル対話システム開発手法
■ 多様な端末からWebサービスを利用する
■ MMI 記述言語と MMI システム
■ MMI システムのための
プロトタイピングツール
新田 恒雄 (豊橋技術科学大学)
Issues on Interaction with Web
■ The coming of heterogeneous devicesand interaction manner
• access by :PC, Mobile phone, PDA, AutoPC, DTV, …
• interaction with:modality-rich terminals, mixed initiative, ...
Our Purpose: Seamless Services over Internet
Ex. On-line Shopping Devices - order goods at Kiosk ..... touch panel- confirm the order with a mobile phone ..... voice- change the order at home ..... DTV remote terminal
XML Document Server(Contents ; View ; Interaction)
XML Document Server(Contents ; View ; Interaction)
How to do it?
<xhtml ........
<head>
VoiceXML
</head>
<body>
........
CSSCSS
<xhtml .......
Form
<salt: ......
CSS
XISL: Extensible Interaction-Sheet Language
CSS
<xhtml .......
Form
<xisl>
<dialog>
<exchange>
........
contents-independent
<xhtml .......
Form
VoiceXML
........
remodels VoiceXML to meet MMI requirements
XISL: Device-Independent - 1/3no modality-specific tag : input modality<input type=“speech” event=“recog” target=“grammar.gxml”
match=“/grammar/goods” return=“goods_name”>
<param name=“mode”>data</param>
</input>
<input type=“dtmf” event=“push” target=“grammar.gxml”
match=“/grammar/goods_select”return=“goods_name”>
<param name=“mode”>digit</param>
</input>
...........
XISL: Device-Independent - 2/3
Front-end Module
<input ….. >type: speechevent:recognize recognizegrammar rule:
introductionreturn: word1
<input ….. >
type: pointing:
ASR
Pointing
Keyboard
Hello!
Helloword
1: Hell
ogrammar
type: speechevent: recognizetarget: ***.xmlmatch: /pagereturn:
word1:Hello
Dialog Manager
XISL: Device-Independent - 3/3
no modality-specific tag : output modality
type event modewindow open, close, …speech play, stop, … TTS, rec_speech, …video play, stop, …audio play, stop, …agent move, speak, …
MMI Description Language: XISL
- is content ( & view ) -independent.
- has no modality-specific tagsthat enable XISL device-independent.
- has MMI control tags and attributes.
→ • realizes seamless services over internet and reuse of XML documents.
• meets modality-rich servicesand avoids patent issues.
XISL enables combinatorial usage of modalities.
Sequential Parallel
← adding a new modality
Alternative
<?xml version=“1.0” encoding=“Shift-JIS”?><!DOCTYPE xisl SYSTEM “xisl.dtd”><xisl version=“1.0”>
<head>.........</head><body><dialogue id = “WAP_phone”><exchange>
<operation comb = “alt”> <input type=“dtmf” event=“push”
target=“/d_gram.gxml”match=“/d_gram/goods_select” return=“number”><param name=“mode”>digit</param>
</input><input type=“speech” event=“recognize”
target=“/gram.gxml” match=“/gram/goods_select”return=“goods_name”><param name=“mode”>data</param>
</input>< /operation >
XISL: example -1/2
< action comb = “seq” ><output type=“speech” event=“play”/>
<param name=“speaker”>nancy</param><param name=“speech_text”>
You selected No. One. < /output >< call dialogue_name=“2”/ >
< /action >:::
XISL: example -2/2
MMIシステムの構成図
入力インタ
フェース
出力インタ
フェース
ドキュメント管理・
インタプリタ
フロントエンド
対話シナリオコンテンツ
対話制御部
ドキュメントサーバ
入力統合・
アクション実行
端末依存の入出力モダリティ
ドキュメントサーバドキュメントサーバ
一般的なWebサーバを想定
対話シナリオ,コンテンツ,表示スタイル
を記述した各文書を格納
対話シナリオ: XISL文書
コンテンツ : XML文書
表示スタイル: XSL文書
⇒ 分離記述により,各文書の再利用性が向上
XISLXISLの特徴の特徴
XMLベースの言語
対話シナリオのみを記述
利用モダリティの拡張が容易
XISLXISLの記述例の記述例
<xisl application=“app-root.xisl”><dialog id=“1”> ‥ 1組の対話
<exchange> ‥‥ 1ユニットの対話<operation comb=“par”> ‥ 一纏りの入力とその制御
<input type=“speech” target=“sample.grm” ….. /><input type=“touch” event=“click” match=“/button1”/>
</operation> ↑XML要素
<action comb=“seq”> ‥ 一纏りの動作とその制御<output type=“agent” event=“speech”>‥‥</output><goto next=“2”/>
</action>:
XISLの記述例
<xisl application=“app-root.xisl”><dialog id=“1”>
<exchange><operation comb=“par”>
<input type=“speech” target=“sample.grm” ….. /><input type=“touch” event=“click” match=“/button1”/>
</operation> ↑<input>の属性値は端末毎に自由に規定
<action comb=“seq”><output type=“agent” event=“speech”>‥‥</output><goto next=“2”/> ↑<output>の属性値と要素内容は
</action> 端末毎に自由に規定
:
XISLの最新仕様
<submit>タグの導入
- CGIの実行
<prompt>タグの導入
- システム主導対話の記述
ECMAScriptへの対応を検討中
http://www.vox.tutkie.tut.ac.jp/XISL/XISL.html
対話制御部
アプリケーション,モダリティ双方に非依存
ドキュメントサーバとXISL文書等を授受
XISLを解釈し,対話の進行を管理
※対話制御部では<input><output>を解釈せず,
フロントエンドが解釈する
対話制御部の構成
対話制御部
ドキュメントサーバ
フロントエンド
ドキュメント管理部
アクション実行部
<output>
端末依存の情報
XMLの編集
対話切替
<action>
入力制御部
GLRパーサ
入力統合部
<input>
ユーザ入力
<operation>
XISL
インタプリタ
起動命令
入力統合部の動作
<dialog>内の<input>を一種の文法規則とみなし,GLRテーブルを作成
– 開始記号: <dialog>– 終端記号: <input>,タイムアウト
– 文 : <input>の系列
– 入力 <input> の系列が <operation> として
還元されると,アクション実行部に通知
Dialogue Control by Using GLR TBL
REDUCE-25
REDUCE-14
SHIFT-53
SHIFT-42
ACCEPT1
SHIFT-2SHIFT-1SHIFT-30
EXCH1BUYGOODScompletetimeoutgoods_spbuy_btnGOTO TBLACTION TBLIN
State
0 SHIFT-3
3 SHIFT-5
5 REDUCE-2
Implementation -3/4
フロントエンド
<input>,<output>の解釈
文法ファイルや表示ファイルの解釈
各種エンジン(音声認識など)の実行
ユーザとの直接のインタラクション
PC端末の入力モダリティ
ポインティング (クリック,ドラッグ,…)
音 声 (文法に従った音声)
キーボード (キー入力)
タイマー (時間の経過)
PC端末の出力モダリティ
MMIブラウザ (XMLファイルの表示など)
Webブラウザ (他サイトのHTMLの表示など)
サウンド,動画
擬人化エージェント(動作,バルーン,TTS)合成音声 (TTSによる出力)
タイマー (タイマーのセット)
アプリケーション
オンラインショッピング(OLS)システム
– ユーザ認証
– 商品閲覧
– 商品説明
– 購入手続き
:
①
②
③
Implementation -4/4
Interaction BuilderInteraction Builder
Interaction Builder(IB)
– MMIシステムのプロトタイピングツール
– GUI操作によってXISLを記述
– システム-ユーザ間の様々なモダリティを
介したやり取りを容易に記述
オンラインショッピングシステムを対象
II B: 起B: 起 動動 時時
音声入力
マウス入力
音声とマウスの 複合入力
擬人化エージェント
II B:B: ページの読み込みページの読み込み
II B:B: インタラクションの付与 インタラクションの付与 -- 2/62/6
II B:B: インタラクションの付与 インタラクションの付与 -- 3/63/6
<input type=“pointing" event="click"
match="/OLS/goods_list/category/goods[@id='23']/object/picture[1]"/>
II B:B: インタラクションの付与 インタラクションの付与 -- 4/64/6
Future Work- XHTML + XISL ; DOM2, XForms, XMLevent,
SMIL..
- Implementation of 3GPP applications
- MMI Requirements:more complicated usage of MMI
- Rapid-prototyping:GUI-based developer support system (IPA project)
http://www.vox.tutkie.tut.ac.jp/XISL/XISL-E.html