39
キーワード集合をクエリとする 最良照合STD方式 筑波大学 システム情報学系 知能機能工学域 自然言語処理研究室(宇津呂研究室) 1

音声を検索するための索引付け方式の紹介(専門家向け)

Embed Size (px)

Citation preview

Page 1: 音声を検索するための索引付け方式の紹介(専門家向け)

キーワード集合をクエリとする最良照合STD方式

筑波大学システム情報学系知能機能工学域自然言語処理研究室(宇津呂研究室)

1

Page 2: 音声を検索するための索引付け方式の紹介(専門家向け)

研究の背景

2

Page 3: 音声を検索するための索引付け方式の紹介(専門家向け)

音声中の検索語検出(Spoken Term Detection:STD)とは

– 音声中から,聴きたいキーワードが発言されている箇所を検索する技術

筑波大学

「筑波大学のキャンパスは・・・」

「国立大学の中でも筑波大学は・・・」

検索

「筑波大学循環バスの・・・」

研究の背景

音声データ

3

Page 4: 音声を検索するための索引付け方式の紹介(専門家向け)

音声認識システム

音声データ 認識結果テキストデータ

<検索語を入力>

文字列検索

キーワードの発言箇所を

特定

基本的なSTDの仕組み

– まず,音声データを音声認識してテキストデータとして表現します.

– このテキストデータをキーワード検索することで ,キーワードの発言箇所を特定します.

研究の背景

4

Page 5: 音声を検索するための索引付け方式の紹介(専門家向け)

音声認識システムの問題:未知語

しかしこのように,音声認識の結果が誤っている場合があります.

音声認識システム認識結果テキストデータ

「皆さんによく知られているのはナシゴレンっていう,チャーハンみたいなもの」

音声データ

皆さんによく知られているのは梨方言っていう,チャーハンみたいなもの

誤認識

研究の背景

5

Page 6: 音声を検索するための索引付け方式の紹介(専門家向け)

音声認識の結果が誤っていると,検索したいキーワードで文字列検索しても一致しないため検出できません.

音声認識システムの問題:未知語

音声認識システム認識結果テキストデータ

「皆さんによく知られているのはナシゴレンっていう,チャーハンみたいなもの」

音声データ

皆さんによく知られているのは梨方言っていう,チャーハンみたいなもの

誤認識

ナシゴレン

文字列検索では検出できない

研究の背景

6

Page 7: 音声を検索するための索引付け方式の紹介(専門家向け)

音声認識システムの認識辞書に登録されていない単語(=未知語)は認識結果に現れない

今回は「ナシゴレン」が未知語だったので,異なる単語が認識結果に現れた

なぜ誤認識が生じる?

音声認識システムの問題:未知語

研究の背景

7

Page 8: 音声を検索するための索引付け方式の紹介(専門家向け)

• 音素遷移ネットワークとは– 単語の読みの単位(音素)のネットワークで,複数の音声認識結果を表現– たとえば下図では,青いマスを辿ると 「nasihoogeN」=梨方言という認識

結果が表現されています.

未知語対策手法:音素遷移ネットワーク[名取13] (Phoneme Transition Network:PTN)

ks

@h

ioa

n

w

g@g

o

m

@qe

pNu

a

o

@ks

@h

ioa

n

w

g@g

o

m

@qe

pNu

a

o

@

研究の背景

8

Page 9: 音声を検索するための索引付け方式の紹介(専門家向け)

• 音素遷移ネットワークとは– 単語の読みの単位(音素)のネットワークで,複数の音声認識結果を表現– たとえば下図では,青いマスを辿ると 「nasihoogeN」=梨方言という認識

結果が表現されています.

• 音素遷移ネットワークを用いたキーワードの検索– 検索したいキーワードの読みと類似した文字列をネットワークから探し,

検出します.

– 多少の不一致を許容することで,認識結果からキーワードを幅広く検出できる仕組みになっています.

未知語対策手法:音素遷移ネットワーク[名取13] (Phoneme Transition Network:PTN)

ks

@h

ioa

n

w

g@g

o

m

@qe

pNu

a

o

@ks

@h

ioa

n

w

g@g

o

m

@qe

pNu

a

o

@

研究の背景

9

Page 10: 音声を検索するための索引付け方式の紹介(専門家向け)

認識システム1

認識システム10

STD⽤インデックス変換 ⾳素遷移

ネットワーク

・・・

・・・

⾳素列化

検索ステップ照合

電⼦回路電⼦回路 STD結果

音声データ

索引付けステップ

キーワード入力

未知語対策手法:音素遷移ネットワーク[名取13] (Phoneme Transition Network:PTN)

研究の背景

• PTN方式の流れ

10

Page 11: 音声を検索するための索引付け方式の紹介(専門家向け)

音声認識システム

「皆さんによく知られているのはナシゴレンっていう,チャーハンみたいなもの」

音声データ

ナシゴレン

研究の背景

未知語対策手法:音素遷移ネットワーク[名取13] (Phoneme Transition Network:PTN)

音素遷移ネットワーク

ks

@h

ioa

nwg

@g

om@

qe

pNu

a

o

@ks

@h

ioa

nwg

@g

om@

qe

pNu

a

o

@

検出できる

先ほどの例についてPTN方式を用いると,「ナシゴレン(=nasigoreN)」と「梨方言(=nasihoogeN)」は読みが類似しているため,誤認識していてもキーワードを検出できます.11

Page 12: 音声を検索するための索引付け方式の紹介(専門家向け)

研究の背景

PTN方式STDの問題点:過照合による誤検出

音声認識システム

「国の宗教としてはイスラム教なんですけれども」

音声データ

仏教

音素遷移ネットワーク

誤って検出してしまう

ru

ui

o

N

@

ky osh

ところが,この例では「仏教」というキーワードを検索しているのに「宗教」と発言している箇所を誤って検出しています.

12

Page 13: 音声を検索するための索引付け方式の紹介(専門家向け)

研究の背景

PTN方式STDの問題点:過照合による誤検出

このように,読みが似ていれば検索したいキーワードと異なる単語の発言まで検出してしまう

過照合による誤検出

音素遷移ネットワークの問題点

本研究ではこの問題の解決を目指します.13

Page 14: 音声を検索するための索引付け方式の紹介(専門家向け)

まず,従来手法の「音素遷移ネットワーク方式STD」における検出の仕組みについて説明します.

14

Page 15: 音声を検索するための索引付け方式の紹介(専門家向け)

音声波形

音声認識の結果を,読み (音素) の遷移を表した「音素遷移ネットワーク(以下,PTN) 」で表現します.

k

r

@

rua

o

ak

w

g@

ur

m

@q

N

@

r

p

bu@

u

@

r

@

r

q

uu

e

a

@

音素遷移ネットワーク

従来手法における検出の説明

15

Page 16: 音声を検索するための索引付け方式の紹介(専門家向け)

(マレーシアのクアラルンプールにキャンプのマネージャーがいて,)

照合コスト

0.779 クアラルンプール照合コスト

0.199照合コスト

0.625照合コスト

0.750

従来手法における検出の説明

発話内容

次に,検索語をPTNの箇所ごとに照らし合わせます.この際,照合のずれの度合いを表す照合コストが計算されます.(ずれが大きいほど照合コストも大きくなります)

(マレーシア)(クアラルンプール)(キャンプ) (マネージャー)

16

Page 17: 音声を検索するための索引付け方式の紹介(専門家向け)

(マレーシアのクアラルンプールにキャンプのマネージャーがいて,)

照合コスト

0.131 マレーシア照合コスト

0.718照合コスト

0.522照合コスト

0.288

照合コスト

0.779 クアラルンプール照合コスト

0.199照合コスト

0.625照合コスト

0.750

照合コスト

0.692 キャンプ照合コスト

0.343照合コスト

0.492照合コスト

0.08

マネージャー照合コスト

0.534照合コスト

0.232照合コスト

0.241照合コスト

0.534

例えば,4つのキーワードを検索すると,以下のように(PTN中の箇所数×4)個の照合結果が得られます.

従来手法における検出の説明

17

Page 18: 音声を検索するための索引付け方式の紹介(専門家向け)

(マレーシアのクアラルンプールにキャンプのマネージャーがいて,)

照合コスト

0.131 マレーシア照合コスト

0.718照合コスト

0.522照合コスト

0.288

照合コスト

0.779 クアラルンプール照合コスト

0.199照合コスト

0.625照合コスト

0.750

照合コスト

0.692 キャンプ照合コスト

0.343照合コスト

0.492照合コスト

0.08

マネージャー照合コスト

0.534照合コスト

0.232照合コスト

0.241照合コスト

0.534

このうち,設定した照合コストの上限よりも照合コストが小さい照合結果をすべて検出します.

例えば コストの上限=0.35 とすると・・・

従来手法における検出の説明

18

Page 19: 音声を検索するための索引付け方式の紹介(専門家向け)

(マレーシアのクアラルンプールにキャンプのマネージャーがいて,)

マレーシア

クアラルンプール

キャンプ

マネージャー

例えば コストの上限=0.35 とすると,下図の赤い線で囲まれた照合結果が検出されます.検出された結果が正しいかどうか確認すると・・・

従来手法における検出の説明

照合コスト

0.131照合コスト

0.718照合コスト

0.522照合コスト

0.288

照合コスト

0.779照合コスト

0.199照合コスト

0.625照合コスト

0.750

照合コスト

0.692照合コスト

0.343照合コスト

0.492照合コスト

0.08

照合コスト

0.534照合コスト

0.232照合コスト

0.241照合コスト

0.534

19

Page 20: 音声を検索するための索引付け方式の紹介(専門家向け)

検出された結果が正しいかどうか確認すると,3個の誤検出がありました.

従来手法における検出の説明

「マレーシア」と「マネージャー」など,読みが似ているキーワードの発言に対して,過照合による誤検出が生じている 20

Page 21: 音声を検索するための索引付け方式の紹介(専門家向け)

索引付けステップ

PTNの各箇所に対して,

最も照合するキーワードを索引付ける

過照合による誤検出を抑える

索引付けステップ

音素単位の索引(PTN)を作成

検索ステップ

音素単位の過照合による誤検出が発生してしまう

従来手法:音素遷移ネットワーク方式STD

提案手法

21

Page 22: 音声を検索するための索引付け方式の紹介(専門家向け)

⾼精度⾳声検索のための⾳声信号への最良照合キーワード

索引付け⽅式

ここから,提案手法のアイディアを説明します.

22

Page 23: 音声を検索するための索引付け方式の紹介(専門家向け)

(マレーシアのクアラルンプールにキャンプのマネージャーがいて,)

照合コスト

0.131 マレーシア照合コスト

0.718照合コスト

0.522照合コスト

0.288

照合コスト

0.779 クアラルンプール照合コスト

0.199照合コスト

0.625照合コスト

0.750

照合コスト

0.692 キャンプ照合コスト

0.343照合コスト

0.492照合コスト

0.08

マネージャー照合コスト

0.534照合コスト

0.232照合コスト

0.241照合コスト

0.534

先ほどと同様に,4つのキーワードで検索したときの照合結果がある場合を例に考えます.

提案手法のアイディア

23

Page 24: 音声を検索するための索引付け方式の紹介(専門家向け)

(マレーシアのクアラルンプールにキャンプのマネージャーがいて,)

照合コスト

0.131 マレーシア照合コスト

0.718照合コスト

0.522照合コスト

0.288

照合コスト

0.779 クアラルンプール照合コスト

0.199照合コスト

0.625照合コスト

0.750

照合コスト

0.692 キャンプ照合コスト

0.343照合コスト

0.492照合コスト

0.08

マネージャー照合コスト

0.534照合コスト

0.232照合コスト

0.241照合コスト

0.534

提案手法では,まず箇所ごとに照合結果をまとめます.

提案手法のアイディア

24

Page 25: 音声を検索するための索引付け方式の紹介(専門家向け)

照合コスト

0.131 マレーシア照合コスト

0.718照合コスト

0.522照合コスト

0.288

照合コスト

0.779 クアラルンプール照合コスト

0.199照合コスト

0.625照合コスト

0.750

照合コスト

0.692 キャンプ照合コスト

0.343照合コスト

0.492照合コスト

0.08

マネージャー照合コスト

0.534照合コスト

0.232照合コスト

0.241照合コスト

0.534

次に,箇所のまとまりのうち,照合コストが最小の照合結果を見つけます.そして,この照合結果をその箇所に貼り付けます (= 索引付け).

マレーシアクアラルンプール

キャンプ マネージャー

提案手法のアイディア

25

Page 26: 音声を検索するための索引付け方式の紹介(専門家向け)

こうして貼り付けられたキーワードの系列を検索することで,キーワードの発言箇所を特定します.

照合コスト

0.131 マレーシア照合コスト

0.718照合コスト

0.522照合コスト

0.288

照合コスト

0.779 クアラルンプール照合コスト

0.199照合コスト

0.625照合コスト

0.750

照合コスト

0.692 キャンプ照合コスト

0.343照合コスト

0.492照合コスト

0.08

マネージャー照合コスト

0.534照合コスト

0.232照合コスト

0.241照合コスト

0.534

マレーシアクアラルンプール

キャンプ マネージャー

提案手法のアイディア

26

Page 27: 音声を検索するための索引付け方式の紹介(専門家向け)

提案手法のアイディア

複数のキーワードのSTD照合結果の照合コストを比較することで,最も良く照合したキーワードだけを検出すれば,誤検出を減少できる

提案手法のアイディアのまとめ

27

Page 28: 音声を検索するための索引付け方式の紹介(専門家向け)

次に提案手法による索引付けの流れについて説明します.

28

Page 29: 音声を検索するための索引付け方式の紹介(専門家向け)

PTN方式STD(キーワード n)

STD結果 1

STD結果 n

Step2. STD結果の競合集合の作成

Step3. 箇所ごとに最も

照合するキーワードを索引付け

テキスト形式でのキーワード索引

・・・

・・・

PTN方式STD(キーワード 1)

・・・

・・・

音声データ

キーワード1キーワード2

・・

キーワードn

キーワード1キーワード2

・・

キーワードn

提案手法の流れ

29

Step1.キーワード集合の作成

Page 30: 音声を検索するための索引付け方式の紹介(専門家向け)

Step1. キーワード集合の作成

専門用語などのキーワードを人手で選定

キーワード集合

話者照合話者録音音声詐称

・・・

本研究の主目的は,理想的なキーワード集合を用意できた場合の性能評価→ 今回は,キーワード集合は人手で作成

講演の書き起こし文書

提案手法の実現方法

30

001000014.076-00018.940L:(Fえー)これまでの話者照合の研究では(Fえー)他の話者や録音音声による詐称に

・・・

Page 31: 音声を検索するための索引付け方式の紹介(専門家向け)

PTN方式STD(キーワード n)

STD結果 1

STD結果 n

Step2. STD結果の競合集合の作成

Step3. 箇所ごとに最も

照合するキーワードを索引付け

テキスト形式でのキーワード索引

・・・

・・・

PTN方式STD(キーワード 1)

・・・

・・・

音声データ

提案手法の流れ

31

キーワード1キーワード2

・・

キーワードn

キーワード1キーワード2

・・

キーワードn

Step1.キーワード集合の作成

Page 32: 音声を検索するための索引付け方式の紹介(専門家向け)

Step2.STD結果の競合集合の作成

時間[frame]

下図は,いくつかのキーワードのSTD照合結果を検出時間ごとに示したものです。

このようにして“競合関係”を定義します.そして競合関係にある照合結果から,“競合集合”を作成します.

スペクトル

スペクトルパラメータ

スペクトル

パラメータ

スペクトル

スペクトルパラメータ

パラメータ

例1 例2

例3

(直接的)競合関係 非競合関係 (推移的)競合関係

検出時間が重複

検出時間に重複なし

推移的な競合関係

提案手法の実現方法

32

Page 33: 音声を検索するための索引付け方式の紹介(専門家向け)

PTN方式STD(キーワード n)

STD結果 1

STD結果 n

Step2. STD結果の競合集合の作成

Step3. 箇所ごとに最も

照合するキーワードを索引付け

テキスト形式でのキーワード索引

・・・

・・・

PTN方式STD(キーワード 1)

・・・

・・・

音声データ

提案手法の流れ

33

キーワード1キーワード2

・・

キーワードn

キーワード1キーワード2

・・

キーワードn

Step1.キーワード集合の作成

Page 34: 音声を検索するための索引付け方式の紹介(専門家向け)

0.28 – 0.06 = 0.22

Step3‐1.競合集合においてコスト幅内の照合結果を候補として残す

競合集合

照合コスト 0.06スペクトル

スペクトルパラメータ

スペクトル部

パラメータ

特徴パラメータ

照合コスト 0.22

照合コスト 0.12

照合コスト 0.28

照合コスト 0.10

①この競合集合における最小コストを見つけます

② (各コスト) – (最小コスト) = (コスト差) を計算

0.06 – 0.06 = 0

0.22 – 0.06 = 0.16

0.10 – 0.06 = 0.04

③コスト差が設定したコスト幅内の結果を候補として残します

例:コスト幅 = 0.10 とすると

0.12 – 0.06 = 0.06

スペクトル

スペクトルパラメータ

パラメータ

競合集合

提案手法の実現方法

34

Page 35: 音声を検索するための索引付け方式の紹介(専門家向け)

Step3‐2. 直接的競合組間において最長フレーム照合結果を優先して索引付け

スペクトル

スペクトルパラメータ

パラメータ

コスト差 0

コスト差 0.06

コスト差 0.04

そして,索引付けされた箇所と直接競合する照合結果を削除します.

競合集合

提案手法の実現方法

スペクトル

スペクトルパラメータ

パラメータ

コスト差 0

コスト差 0.06

コスト差 0.04

残った候補のうち,

検出フレーム時間が最長の照合結果を選び,索引付けします.

競合集合

以上の手順を,競合集合から候補が無くなるまで繰り返します.35

Page 36: 音声を検索するための索引付け方式の紹介(専門家向け)

提案手法の検索性能について評価を行いました.

評価設定従来手法: PTN方式STD提案手法:キーワード集合をクエリとする最良照合STD方式対象データ:日本語話し言葉コーパス(CSJ)

なお今回は提案手法の有効性の評価が目的だったため,キーワード集合は人手で作成しています.

36

Page 37: 音声を検索するための索引付け方式の紹介(専門家向け)

30%

40%

50%

60%

70%

80%

90%

100%

50% 60% 70% 80% 90% 100%

適合

率[%

]

再現率[%]

CSJのうち,11講演を対象とした評価結果

従来手法

最大F値 87.3%再現率 84.1%適合率 90.1%

提案手法

最大F値 88.4%再現率 84.3%適合率 92.9%

提案手法の評価

37

Page 38: 音声を検索するための索引付け方式の紹介(専門家向け)

40%

50%

60%

70%

80%

90%

100%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Precision[%]

Recall[%]

評価したCSJ11講演のうち,模擬講演(6講演)の評価結果

• 模擬講演は未知語が多い• 提案手法は模擬講演での精度の改善が大きい

→ 提案手法は未知語に対して特に有効

提案手法の評価

提案手法

最大F値 79.1%再現率 73.2%適合率 86.0%

従来手法

最大F値 77.1%再現率 73.4%適合率 81.2%

38

Page 39: 音声を検索するための索引付け方式の紹介(専門家向け)

まとめと今後の課題

まとめ• キーワード集合を用いて,最も良く照合したキーワードを音声

に索引付ける音声検索手法を提案した

• CSJ11講演で評価した結果,主に模擬講演において適合率を

改善した

• 分析の結果,提案手法は未知語の適合率の改善となること

がわかった

今後の課題

• 評価実験の拡大

• キーワード集合を自動生成する仕組みの検討

39