音声翻訳システムにおける同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善本技術の目標：遅延の低減音声認識

1

音声翻訳システムにおける同時性と汎用性の改善


奈良先端科学技術大学院大学情報科学研究科

助教グラム・ニュービッグ

2


背景

3


音声翻訳システム

● ある言語の音声から違う言語の音声へ翻訳

音声認識

こんにちは、駅はどこですか？

機械翻訳

Hello, where is the station?

音声合成

4


遅延の問題● 従来のシステムは 1 文の入力が終わるまで翻訳しない！

音声認識

機械翻訳

音声合成

遅延


Hello, where is the station?

5


本技術の目標：遅延の低減

音声認識

こんにちは、

● 1 文が完全に終わる前に適切なタイミングで翻訳開始

翻訳

駅は

翻訳

どこですか？

翻訳

Hello, the station where is it?

合成合成合成

遅延：減少

6


想定される用途

● 講演やニュースのリアルタイム通訳

● 音声翻訳を通した会話・ミーティングの効率化

7


従来技術：構文解析と手書きルール[Ryu+ 04]

● 英日翻訳で、「倒置」現象に着目した手書きルール

I went to the park with your brother

subj prep prep

「前置詞句が終わったら翻訳開始！」

私は公園に行きましたあなたの弟と

翻訳翻訳

● 問題：両言語に精通した言語学者がルールを作成

● 問題：漸進的な構文解析という高度な解析技術が必要

8


従来技術：音声のポーズ情報を利用[Bangalore+ 12]

● 発話中のポーズに基づく翻訳タイミングの決定

音声認識


● 問題：言語的な知識を用いないため精度低減

● 問題：息継ぎの少ない人、言いよどみの多い人に不向き

9


本技術

● 統計的機械翻訳で用いられる翻訳モデルに着目● ＋データから自動構築可能● ＋言語情報を利用● ＋翻訳と同じ情報を利用するため相性が良い

● 具体的には● 「フレーズ」と呼ばれる、翻訳に用いる単語列の区切りで翻訳開始

● 「並べ替え確率」で同時性と精度のバランスを調整● 「言語モデル適応」を行い、精度の低下を防ぐ

10


フレーズベース統計的機械翻訳（ SMT ）

● 文を翻訳可能な小さい塊に分けて、並べ替える

Today I will give a lecture on machine translation .

Today今日は、

I will giveを行います

a lecture onの講義

machine translation機械翻訳

.。

Today今日は、

I will giveを行います

a lecture onの講義

machine translation機械翻訳

.。

今日は、機械翻訳の講義を行います。

● 翻訳モデル・並べ替えモデル・言語モデルをテキストから統計的に学習

11


単語の対応付け

● 文内の単語対応を発見

● 確率モデルによる自動学習が主流

太郎が花子を訪問した。

taro visited hanako .

P( 花子 |hanako) = 0.99P( 太郎 |taro) = 0.97P(visited| 訪問 ) = 0.46P(visited| した ) = 0.04P( 花子 |taro) = 0.0001

日本語日本語日本語




EnglishEnglishEnglish




太郎が花子を訪問した。

taro visited hanako .


フレーズ抽出

● アライメントに基づいてフレーズを列挙

thehotelfrontdesk

ホテ　受ルの付ホテルの → hotel

ホテルの → the hotel受付 → front deskホテルの受付 → hotel front deskホテルの受付 → the hotel front desk


並べ替えモデル

● 単語の並べ替え方を確率的に表し、精度向上に貢献

● 現在の単語と次の単語の順番は 4 種類に分類：

● 「順」と「不連続 ( 右 ) 」の確率の和は「右確率」

背の高い男

the tall man

順：順番は同じ太郎を訪問した

visited Taro

逆順：順番は逆

私は太郎を訪問した

I visited Taro

不連続（右）：不連続（左）：

背の高い男を訪問した

visited the tall man


言語モデル

● 目的言語側の各文に確率を与える

● 良い言語モデル：流暢性の高い文に高い確率を

E1: Taro visited Hanako

E2: the Taro visited the Hanako

E3: Taro visited the black paper

P(E1)

P(E2)

P(E3)

LM

P(E1) > P(E2) P(E1) > P(E3)


提案手法


提案手法 1 ：フレーズを用いた訳出タイミング決定

● 認識された単語を 1 語ずつ入力

● 単語列が翻訳モデルに存在する限り翻訳しない

入力文字列

hello 　　　 where is 　　　　 the station

“hello”モデルに存在

↓保留

“hello where”存在しない

↓出力

“hello”

“where is”モデルに存在

↓保留

“where is the”存在しない

↓出力

“where is”

“the station”発話終了

↓出力

“the station”

翻訳モデル

hello→ こんにちはwhere→ どこ

where is→ どこですかthe→ その

the station→ 駅


手法１の問題点

● 翻訳精度の低下につながる場合も

こんにちは駅　はどこ　ですか

hello where is the station

通常のフレーズベース翻訳

こんにちはどこですか駅は


手法１を用いた場合


提案手法２：右確率を用いた訳出タイミングの調整

● まず、手法 1 を用いて訳出タイミングを仮確定

● フレーズの右確率が閾値を上回った場合のみ本確定

● 閾値が 1.0 の場合は文ごと、 0.0 の場合はフレーズごと

例 (閾値 = 0.8):

hello 　　　 where is the station

“hello”モデルに存在

↓保留

“hello where”存在しない

↓“hello” を選択

↓右確率 0.9 > 0.8

↓出力 “ hello”

“where is”モデルに存在

↓保留

“where is the”存在しない

↓“where is” を選択

↓右確率 0.6 < 0.8

↓出力しない

“the station”発話終了

↓出力

“where is the station”


手法 2 の問題

● 言語モデルは基本、文ごとに学習される● 文より短い単位の翻訳に向かない● 例：文末表現を置く強い傾向


こんにちは。駅です。どこですか？


提案技術 3 ：　言語モデルの適応

● 言語モデルを学習する前に、提案技術２を言語モデル学習データに適応

従来の言語モデル学習

こんにちは、駅はどこですか。どうやって行けますか？

こんにちは、駅はどこですか。どうやって行けますか？

提案手法

言語モデル学習

文ごとの言語モデル

文分割

言語モデル学習

句ごとの言語モデル


実験的評価

● ４通りの実験的評価：

● 日英旅行対話文 (ja-en)● 日英 11 単語以上の旅行対話文 (ja-en 11+)● 英日旅行対話文 (en-ja)● 仏英ニュース文 (fr-en)

● ２通りの評価項目：

● 精度 :BLEU (参照は ja-en,en-ja で 14 文 , fr-en で 1 文 )● 遅延 :秒

● 右確率は様々な閾値で足切り


評価結果 1 ：全ての設定において遅延が減少

0 2 4 6 8 10 12 140

10

20

30

40

50

60

70

80

en-jaja-enja-en (11+)fr-en

遅延 ( 秒 )

精度

(BL

EU

)

[Ryu+ 04] の研究と違い多くの言語で容易に適応可能 !

t=0t=1


1 1.5 2 2.5 3 3.5 4 4.520

25

30

35

40

45

50

本技術ポーズ

遅延 ( 秒 )

精度

(BL

EU

)評価結果 2 ：

ポーズ情報を用いた場合より速い訳出

[Bangalore+ 12] より速い訳出が可能！

同等の精度で２０％速度向上！


まとめ


まとめ

● 並び替えを考慮したの提案● 翻訳モデルに含まれるフレーズで自動学習● 並べ替えの確率を考慮

● 利点● シンプルかつ言語非依存● 精度・遅延のバランスを調整


実用化に向けた課題

● 現在自動音声翻訳のデモが行えるレベルまで開発済み

● 現状でもすぐに既存の翻訳システムに適応可能な精度

● 単語１語１語をリアルタイムで書き起こす音声認識と合わせた実験は今後の課題


企業への期待

● 音声翻訳技術を持つ企業との共同研究を希望

● 以下の商品を開発中、もしくは展開を考えている企業には、本技術の導入が有効と思われる● テレビやテレビ関連の通信機器● 携帯電話・スマートフォーン● 会議や通信関係のソフトウェア


本技術に関する知的財産権

● 発明の名称：テキストデータ分割装置、テキストデータ　　　　　　分割方法、テキストデータ分割プログラム　　　　　　及び翻訳装置

● 出願番号　：特願 2013-97857

● 出願人　：奈良先端科学技術大学院大学

● 発明者　：藤田　朋希、グラム　ニュービッグ、　　　　　　サクリアニ　サクティ、戸田　智基、　　　　　　中村　哲


産学連携の経歴

● 2009-2010年 : 教育測定研究所と共同研究実施

● 2011年 : パナソニックと共同研究実施

● 2012年 ~: 日本電気、情報通信研究機構と共同研究実施

● 2013年 ~: 日本電信電話と共同研究実施


お問い合わせ先

奈良先端科学技術大学院大学

産官学連携コーディネーター　那脇　勝

ＴＥＬ０７４３－７２－５９３０

ＦＡＸ０７４３－７２－５０１５

e-mail [email protected]

Documents

音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標：遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善本技術の目標：遅延の低減音声認識