30
1 音声翻訳システムにおける同時性と汎用性の改善 音声翻訳システムにおける 同時性と汎用性の改善 奈良先端科学技術大学院大学 情報科学研究科 助教 グラム・ニュービッグ

音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

1

音声翻訳システムにおける同時性と汎用性の改善

音声翻訳システムにおける同時性と汎用性の改善

奈良先端科学技術大学院大学情報科学研究科

助教 グラム・ニュービッグ

Page 2: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

2

音声翻訳システムにおける同時性と汎用性の改善

背景

Page 3: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

3

音声翻訳システムにおける同時性と汎用性の改善

音声翻訳システム

● ある言語の音声から違う言語の音声へ翻訳

音声認識

こんにちは、駅はどこですか?

機械翻訳

Hello, where is the station?

音声合成

Page 4: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

4

音声翻訳システムにおける同時性と汎用性の改善

遅延の問題● 従来のシステムは 1 文の入力が終わるまで翻訳しない!

音声認識

機械翻訳

音声合成

遅延

こんにちは、駅はどこですか?

Hello, where is the station?

Page 5: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

5

音声翻訳システムにおける同時性と汎用性の改善

本技術の目標:遅延の低減

音声認識

こんにちは、

● 1 文が完全に終わる前に適切なタイミングで翻訳開始

翻訳

駅は

翻訳

どこですか?

翻訳

Hello, the station where is it?

合成 合成 合成

遅延:減少

Page 6: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

6

音声翻訳システムにおける同時性と汎用性の改善

想定される用途

● 講演やニュースのリアルタイム通訳

● 音声翻訳を通した会話・ミーティングの効率化

Page 7: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

7

音声翻訳システムにおける同時性と汎用性の改善

従来技術:構文解析と手書きルール[Ryu+ 04]

● 英日翻訳で、「倒置」現象に着目した手書きルール

I went to the park with your brother

subj prep prep

「前置詞句が終わったら翻訳開始!」

私は公園に行きました あなたの弟と

翻訳 翻訳

● 問題:両言語に精通した言語学者がルールを作成

● 問題:漸進的な構文解析という高度な解析技術が必要

Page 8: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

8

音声翻訳システムにおける同時性と汎用性の改善

従来技術:音声のポーズ情報を利用[Bangalore+ 12]

● 発話中のポーズに基づく翻訳タイミングの決定

音声認識

こんにちは、 駅はどこですか?

● 問題:言語的な知識を用いないため精度低減

● 問題:息継ぎの少ない人、言いよどみの多い人に不向き

Page 9: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

9

音声翻訳システムにおける同時性と汎用性の改善

本技術

● 統計的機械翻訳で用いられる翻訳モデルに着目● +データから自動構築可能● +言語情報を利用● +翻訳と同じ情報を利用するため相性が良い

● 具体的には● 「フレーズ」と呼ばれる、翻訳に用いる単語列の区切りで翻訳開始

● 「並べ替え確率」で同時性と精度のバランスを調整● 「言語モデル適応」を行い、精度の低下を防ぐ

Page 10: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

10

音声翻訳システムにおける同時性と汎用性の改善

フレーズベース統計的機械翻訳( SMT )

● 文を翻訳可能な小さい塊に分けて、並べ替える

Today I will give a lecture on machine translation .

Today今日は、

I will giveを行います

a lecture onの講義

machine translation機械翻訳

.。

Today今日は、

I will giveを行います

a lecture onの講義

machine translation機械翻訳

.。

今日は、機械翻訳の講義を行います。

● 翻訳モデル・並べ替えモデル・言語モデルをテキストから統計的に学習

Page 11: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

11

音声翻訳システムにおける同時性と汎用性の改善

単語の対応付け

● 文内の単語対応を発見

● 確率モデルによる自動学習が主流

太郎 が 花子 を 訪問 した 。

taro visited hanako .

P( 花子 |hanako) = 0.99P( 太郎 |taro) = 0.97P(visited| 訪問 ) = 0.46P(visited| した ) = 0.04P( 花子 |taro) = 0.0001

日本語日本語日本語

日本語日本語日本語

日本語日本語日本語

日本語日本語日本語

EnglishEnglishEnglish

EnglishEnglishEnglish

EnglishEnglishEnglish

EnglishEnglishEnglish

太郎 が 花子 を 訪問 した 。

taro visited hanako .

Page 12: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

フレーズ抽出

● アライメントに基づいてフレーズを列挙

thehotelfrontdesk

ホテ 受ルの付 ホテル の → hotel

ホテル の → the hotel受付 → front deskホテルの受付 → hotel front deskホテルの受付 → the hotel front desk

Page 13: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

並べ替えモデル

● 単語の並べ替え方を確率的に表し、精度向上に貢献

● 現在の単語と次の単語の順番は 4 種類に分類:

● 「順」と「不連続 ( 右 ) 」の確率の和は「右確率」

背 の 高い 男

the tall man

順:順番は同じ太郎 を 訪問 した

visited Taro

逆順:順番は逆

私 は 太郎 を 訪問した

I visited Taro

不連続(右): 不連続(左):

背 の 高い 男 を 訪問 した

visited the tall man

Page 14: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

言語モデル

● 目的言語側の各文に確率を与える

● 良い言語モデル:流暢性の高い文に高い確率を

E1: Taro visited Hanako

E2: the Taro visited the Hanako

E3: Taro visited the black paper

P(E1)

P(E2)

P(E3)

LM

P(E1) > P(E2) P(E1) > P(E3)

Page 15: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

提案手法

Page 16: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

提案手法 1 :フレーズを用いた訳出タイミング決定

● 認識された単語を 1 語ずつ入力

● 単語列が翻訳モデルに存在する限り翻訳しない

入力文字列

hello     where is      the station

“hello”モデルに存在

↓保留

“hello where”存在しない

↓出力

“hello”

“where is”モデルに存在

↓保留

“where is the”存在しない

↓出力

“where is”

“the station”発話終了

↓出力

“the station”

翻訳モデル

hello→ こんにちはwhere→ どこ

where is→ どこですかthe→ その

the station→ 駅

Page 17: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

手法1の問題点

● 翻訳精度の低下につながる場合も

こんにちは 駅 は どこ ですか

hello where is the station

通常のフレーズベース翻訳

こんにちは どこ ですか 駅 は

hello where is the station

手法1を用いた場合

Page 18: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

提案手法2:右確率を用いた訳出タイミングの調整

● まず、手法 1 を用いて訳出タイミングを仮確定

● フレーズの右確率が閾値を上回った場合のみ本確定

● 閾値が 1.0 の場合は文ごと、 0.0 の場合はフレーズごと

例 (閾値 = 0.8):

hello     where is the station

“hello”モデルに存在

↓保留

“hello where”存在しない

↓“hello” を選択

↓右確率 0.9 > 0.8

↓出力 “ hello”

“where is”モデルに存在

↓保留

“where is the”存在しない

↓“where is” を選択

↓右確率 0.6 < 0.8

↓出力しない

“the station”発話終了

↓出力

“where is the station”

Page 19: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

手法 2 の問題

● 言語モデルは基本、文ごとに学習される● 文より短い単位の翻訳に向かない● 例:文末表現を置く強い傾向

hello where is the station

こんにちは。 駅です。どこですか?

Page 20: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

提案技術 3 : 言語モデルの適応

● 言語モデルを学習する前に、提案技術2を言語モデル学習データに適応

従来の言語モデル学習

こんにちは、駅はどこですか。どうやって行けますか?

こんにちは、駅はどこですか。どうやって行けますか?

提案手法

言語モデル学習

文ごとの言語モデル

文分割

言語モデル学習

句ごとの言語モデル

Page 21: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

実験的評価

● 4通りの実験的評価:

● 日英旅行対話文 (ja-en)● 日英 11 単語以上の旅行対話文 (ja-en 11+)● 英日旅行対話文 (en-ja)● 仏英ニュース文 (fr-en)

● 2通りの評価項目:

● 精度 :BLEU (参照は ja-en,en-ja で 14 文 , fr-en で 1 文 )● 遅延 :秒

● 右確率は様々な閾値で足切り

Page 22: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

評価結果 1 :全ての設定において遅延が減少

0 2 4 6 8 10 12 140

10

20

30

40

50

60

70

80

en-jaja-enja-en (11+)fr-en

遅延 ( 秒 )

精度

(BL

EU

)

[Ryu+ 04] の研究と違い多くの言語で容易に適応可能 !

t=0t=1

Page 23: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

1 1.5 2 2.5 3 3.5 4 4.520

25

30

35

40

45

50

本技術ポーズ

遅延 ( 秒 )

精度

(BL

EU

)評価結果 2 :

ポーズ情報を用いた場合より速い訳出

[Bangalore+ 12] より速い訳出が可能!

同等の精度で20%速度向上!

Page 24: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

まとめ

Page 25: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

まとめ

● 並び替えを考慮したの提案● 翻訳モデルに含まれるフレーズで自動学習● 並べ替えの確率を考慮

● 利点● シンプルかつ言語非依存● 精度・遅延のバランスを調整

Page 26: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

実用化に向けた課題

● 現在自動音声翻訳のデモが行えるレベルまで開発済み

● 現状でもすぐに既存の翻訳システムに適応可能な精度

● 単語1語1語をリアルタイムで書き起こす音声認識と合わせた実験は今後の課題

Page 27: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

企業への期待

● 音声翻訳技術を持つ企業との共同研究を希望

● 以下の商品を開発中、もしくは展開を考えている企業には、本技術の導入が有効と思われる● テレビやテレビ関連の通信機器● 携帯電話・スマートフォーン● 会議や通信関係のソフトウェア

Page 28: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

本技術に関する知的財産権

● 発明の名称:テキストデータ分割装置、テキストデータ      分割方法、テキストデータ分割プログラム      及び翻訳装置

● 出願番号 :特願 2013-97857

● 出願人  :奈良先端科学技術大学院大学

● 発明者  :藤田 朋希、グラム ニュービッグ、      サクリアニ サクティ、戸田 智基、      中村 哲

Page 29: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

産学連携の経歴

● 2009-2010年 : 教育測定研究所と共同研究実施

● 2011年 : パナソニックと共同研究実施

● 2012年 ~: 日本電気、情報通信研究機構と共同研究実施

● 2013年 ~: 日本電信電話と共同研究実施

Page 30: 音声翻訳システムにおける 同時性と汎用性の改善 · 5 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 音声認識

音声翻訳システムにおける同時性と汎用性の改善

お問い合わせ先

奈良先端科学技術大学院大学

産官学連携コーディネーター 那脇 勝

TEL 0743-72-5930

FAX 0743-72-5015

e-mail [email protected]