Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
1
音声翻訳システムにおける同時性と汎用性の改善
音声翻訳システムにおける同時性と汎用性の改善
奈良先端科学技術大学院大学情報科学研究科
助教 グラム・ニュービッグ
2
音声翻訳システムにおける同時性と汎用性の改善
背景
3
音声翻訳システムにおける同時性と汎用性の改善
音声翻訳システム
● ある言語の音声から違う言語の音声へ翻訳
音声認識
こんにちは、駅はどこですか?
機械翻訳
Hello, where is the station?
音声合成
4
音声翻訳システムにおける同時性と汎用性の改善
遅延の問題● 従来のシステムは 1 文の入力が終わるまで翻訳しない!
音声認識
機械翻訳
音声合成
遅延
こんにちは、駅はどこですか?
Hello, where is the station?
5
音声翻訳システムにおける同時性と汎用性の改善
本技術の目標:遅延の低減
音声認識
こんにちは、
● 1 文が完全に終わる前に適切なタイミングで翻訳開始
翻訳
駅は
翻訳
どこですか?
翻訳
Hello, the station where is it?
合成 合成 合成
遅延:減少
6
音声翻訳システムにおける同時性と汎用性の改善
想定される用途
● 講演やニュースのリアルタイム通訳
● 音声翻訳を通した会話・ミーティングの効率化
7
音声翻訳システムにおける同時性と汎用性の改善
従来技術:構文解析と手書きルール[Ryu+ 04]
● 英日翻訳で、「倒置」現象に着目した手書きルール
I went to the park with your brother
subj prep prep
「前置詞句が終わったら翻訳開始!」
私は公園に行きました あなたの弟と
翻訳 翻訳
● 問題:両言語に精通した言語学者がルールを作成
● 問題:漸進的な構文解析という高度な解析技術が必要
8
音声翻訳システムにおける同時性と汎用性の改善
従来技術:音声のポーズ情報を利用[Bangalore+ 12]
● 発話中のポーズに基づく翻訳タイミングの決定
音声認識
こんにちは、 駅はどこですか?
● 問題:言語的な知識を用いないため精度低減
● 問題:息継ぎの少ない人、言いよどみの多い人に不向き
9
音声翻訳システムにおける同時性と汎用性の改善
本技術
● 統計的機械翻訳で用いられる翻訳モデルに着目● +データから自動構築可能● +言語情報を利用● +翻訳と同じ情報を利用するため相性が良い
● 具体的には● 「フレーズ」と呼ばれる、翻訳に用いる単語列の区切りで翻訳開始
● 「並べ替え確率」で同時性と精度のバランスを調整● 「言語モデル適応」を行い、精度の低下を防ぐ
10
音声翻訳システムにおける同時性と汎用性の改善
フレーズベース統計的機械翻訳( SMT )
● 文を翻訳可能な小さい塊に分けて、並べ替える
Today I will give a lecture on machine translation .
Today今日は、
I will giveを行います
a lecture onの講義
machine translation機械翻訳
.。
Today今日は、
I will giveを行います
a lecture onの講義
machine translation機械翻訳
.。
今日は、機械翻訳の講義を行います。
● 翻訳モデル・並べ替えモデル・言語モデルをテキストから統計的に学習
11
音声翻訳システムにおける同時性と汎用性の改善
単語の対応付け
● 文内の単語対応を発見
● 確率モデルによる自動学習が主流
太郎 が 花子 を 訪問 した 。
taro visited hanako .
P( 花子 |hanako) = 0.99P( 太郎 |taro) = 0.97P(visited| 訪問 ) = 0.46P(visited| した ) = 0.04P( 花子 |taro) = 0.0001
日本語日本語日本語
日本語日本語日本語
日本語日本語日本語
日本語日本語日本語
EnglishEnglishEnglish
EnglishEnglishEnglish
EnglishEnglishEnglish
EnglishEnglishEnglish
太郎 が 花子 を 訪問 した 。
taro visited hanako .
音声翻訳システムにおける同時性と汎用性の改善
フレーズ抽出
● アライメントに基づいてフレーズを列挙
thehotelfrontdesk
ホテ 受ルの付 ホテル の → hotel
ホテル の → the hotel受付 → front deskホテルの受付 → hotel front deskホテルの受付 → the hotel front desk
音声翻訳システムにおける同時性と汎用性の改善
並べ替えモデル
● 単語の並べ替え方を確率的に表し、精度向上に貢献
● 現在の単語と次の単語の順番は 4 種類に分類:
● 「順」と「不連続 ( 右 ) 」の確率の和は「右確率」
背 の 高い 男
the tall man
順:順番は同じ太郎 を 訪問 した
visited Taro
逆順:順番は逆
私 は 太郎 を 訪問した
I visited Taro
不連続(右): 不連続(左):
背 の 高い 男 を 訪問 した
visited the tall man
音声翻訳システムにおける同時性と汎用性の改善
言語モデル
● 目的言語側の各文に確率を与える
● 良い言語モデル:流暢性の高い文に高い確率を
E1: Taro visited Hanako
E2: the Taro visited the Hanako
E3: Taro visited the black paper
P(E1)
P(E2)
P(E3)
LM
P(E1) > P(E2) P(E1) > P(E3)
音声翻訳システムにおける同時性と汎用性の改善
提案手法
音声翻訳システムにおける同時性と汎用性の改善
提案手法 1 :フレーズを用いた訳出タイミング決定
● 認識された単語を 1 語ずつ入力
● 単語列が翻訳モデルに存在する限り翻訳しない
入力文字列
hello where is the station
“hello”モデルに存在
↓保留
“hello where”存在しない
↓出力
“hello”
“where is”モデルに存在
↓保留
“where is the”存在しない
↓出力
“where is”
“the station”発話終了
↓出力
“the station”
翻訳モデル
hello→ こんにちはwhere→ どこ
where is→ どこですかthe→ その
the station→ 駅
音声翻訳システムにおける同時性と汎用性の改善
手法1の問題点
● 翻訳精度の低下につながる場合も
こんにちは 駅 は どこ ですか
hello where is the station
通常のフレーズベース翻訳
こんにちは どこ ですか 駅 は
hello where is the station
手法1を用いた場合
音声翻訳システムにおける同時性と汎用性の改善
提案手法2:右確率を用いた訳出タイミングの調整
● まず、手法 1 を用いて訳出タイミングを仮確定
● フレーズの右確率が閾値を上回った場合のみ本確定
● 閾値が 1.0 の場合は文ごと、 0.0 の場合はフレーズごと
例 (閾値 = 0.8):
hello where is the station
“hello”モデルに存在
↓保留
“hello where”存在しない
↓“hello” を選択
↓右確率 0.9 > 0.8
↓出力 “ hello”
“where is”モデルに存在
↓保留
“where is the”存在しない
↓“where is” を選択
↓右確率 0.6 < 0.8
↓出力しない
“the station”発話終了
↓出力
“where is the station”
音声翻訳システムにおける同時性と汎用性の改善
手法 2 の問題
● 言語モデルは基本、文ごとに学習される● 文より短い単位の翻訳に向かない● 例:文末表現を置く強い傾向
hello where is the station
こんにちは。 駅です。どこですか?
音声翻訳システムにおける同時性と汎用性の改善
提案技術 3 : 言語モデルの適応
● 言語モデルを学習する前に、提案技術2を言語モデル学習データに適応
従来の言語モデル学習
こんにちは、駅はどこですか。どうやって行けますか?
こんにちは、駅はどこですか。どうやって行けますか?
提案手法
言語モデル学習
文ごとの言語モデル
文分割
言語モデル学習
句ごとの言語モデル
音声翻訳システムにおける同時性と汎用性の改善
実験的評価
● 4通りの実験的評価:
● 日英旅行対話文 (ja-en)● 日英 11 単語以上の旅行対話文 (ja-en 11+)● 英日旅行対話文 (en-ja)● 仏英ニュース文 (fr-en)
● 2通りの評価項目:
● 精度 :BLEU (参照は ja-en,en-ja で 14 文 , fr-en で 1 文 )● 遅延 :秒
● 右確率は様々な閾値で足切り
音声翻訳システムにおける同時性と汎用性の改善
評価結果 1 :全ての設定において遅延が減少
0 2 4 6 8 10 12 140
10
20
30
40
50
60
70
80
en-jaja-enja-en (11+)fr-en
遅延 ( 秒 )
精度
(BL
EU
)
[Ryu+ 04] の研究と違い多くの言語で容易に適応可能 !
t=0t=1
音声翻訳システムにおける同時性と汎用性の改善
1 1.5 2 2.5 3 3.5 4 4.520
25
30
35
40
45
50
本技術ポーズ
遅延 ( 秒 )
精度
(BL
EU
)評価結果 2 :
ポーズ情報を用いた場合より速い訳出
[Bangalore+ 12] より速い訳出が可能!
同等の精度で20%速度向上!
音声翻訳システムにおける同時性と汎用性の改善
まとめ
音声翻訳システムにおける同時性と汎用性の改善
まとめ
● 並び替えを考慮したの提案● 翻訳モデルに含まれるフレーズで自動学習● 並べ替えの確率を考慮
● 利点● シンプルかつ言語非依存● 精度・遅延のバランスを調整
音声翻訳システムにおける同時性と汎用性の改善
実用化に向けた課題
● 現在自動音声翻訳のデモが行えるレベルまで開発済み
● 現状でもすぐに既存の翻訳システムに適応可能な精度
● 単語1語1語をリアルタイムで書き起こす音声認識と合わせた実験は今後の課題
音声翻訳システムにおける同時性と汎用性の改善
企業への期待
● 音声翻訳技術を持つ企業との共同研究を希望
● 以下の商品を開発中、もしくは展開を考えている企業には、本技術の導入が有効と思われる● テレビやテレビ関連の通信機器● 携帯電話・スマートフォーン● 会議や通信関係のソフトウェア
音声翻訳システムにおける同時性と汎用性の改善
本技術に関する知的財産権
● 発明の名称:テキストデータ分割装置、テキストデータ 分割方法、テキストデータ分割プログラム 及び翻訳装置
● 出願番号 :特願 2013-97857
● 出願人 :奈良先端科学技術大学院大学
● 発明者 :藤田 朋希、グラム ニュービッグ、 サクリアニ サクティ、戸田 智基、 中村 哲
音声翻訳システムにおける同時性と汎用性の改善
産学連携の経歴
● 2009-2010年 : 教育測定研究所と共同研究実施
● 2011年 : パナソニックと共同研究実施
● 2012年 ~: 日本電気、情報通信研究機構と共同研究実施
● 2013年 ~: 日本電信電話と共同研究実施
音声翻訳システムにおける同時性と汎用性の改善
お問い合わせ先
奈良先端科学技術大学院大学
産官学連携コーディネーター 那脇 勝
TEL 0743-72-5930
FAX 0743-72-5015
e-mail [email protected]