音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間

音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間

第 14 回　音声言語シンポジウム2012 年 12 月 20, 21 日

高島遼一，滝口哲也，有木康雄神戸大学大学院

www.***.com

研究背景・目的 (1/4)

音源位置推定収録した音声から，その音源の位置を推定する話者位置推定 ⇒　対話ロボット，音声強調など話者の推定 ⇒　議事録作成など

従来の音源位置推定法複数のマイクを用いて観測される信号間の位相差を利

用

d

sindc

c ：時間

差：音速

cマイクロホンアレー（マイク数32 ）

www.***.com


単一マイクによる音源位置推定法は，いまだ確立されていない

システムの縮小化，複数マイクの手法との複合

提案アプローチ音響伝達特性を用いた単一チャネル音源位置推定法

位相差などのマイク間の情報を用いない，単一マイクでも行える音源位置推定の実現

www.***.com


先行研究音響伝達特性の識別に基づくシングルチャネル音源位置推

定(Takashima, et al., ICASSP, 2010)

Microphone

S

O

音響伝達特性（インパルス応答）は，音源の位置ごとに異なる特性をもつ音源位置毎に音響伝達特性を学習評価音声について，その音響伝達特性を識別することで音源位置を推定

S 位置 A

位置 BHB

HA音響伝達特性

音響伝達特性

www.***.com


先行研究ではパターン認識に基づき音源位置を推定特徴量：　音響伝達特性 (MFCC ： 16 次元 )クラス：　　音源位置

特徴量 ( 伝達特性 MFCC) 空間

位置 A

位置 C位置 B

位置 D の伝達特性

• あらかじめ学習した位置しか推定（認識）できない

• 位置 D を推定する (= クラスを作成する )ためには位置 D の学習サンプルが必要

= 位置 B

研究目的：限られた位置の学習サンプルのみを用いて未学習位置の推定を行う

提案アプローチ：回帰分析による未学習位置の推定

www.***.com

提案手法の流れ

traintrainO ,

観測信号 Oから音響伝達特性 H

を推定

学習データ

testO評価データ testO testH

音響伝達特性 Hから座標 θへの

回帰モデル f(H)を学習

回帰モデルを用いて

音響伝達特性から位置を推定

1

音源

位置

単一マイク2

3

traintrainO 1,1

traintrainO 22 ,

traintrainO 33 ,

traintrainH 1,1

traintrainH 22 ,

traintrainH 33 ,

testHf

Hf

推定位置

www.***.com

回帰モデルの学習

回帰分析説明変数：　音響伝達特性 (MFCC ： 16 次元 )目的変数 : 　音源位置 ( 座標 )

回帰分析手法線形回帰

重回帰分析非線形回帰

Gaussian Process Regression (GPR) (C. E. Rasmussen, et al., 2006)Support Vector Regression (SVR) (A.J. Smola, et al., 2004)

学習方法局所的回帰

説明変数( 伝達特性 H)

Hf目的変数( 位置　 )

位置 C

位置 B

位置 A位置 D

www.***.com

大域的回帰

一般的な回帰モデル学習法あらかじめ学習サンプル全てを用いて一つの回帰関数を

学習するどの位置の推定においても単一の回帰関数が用いられる

部屋内のあらゆる位置と音響伝達特性の関係をたった一つの関数で表現しきれるのか？



位置 C

位置 B

位置 A

www.***.com

局所的回帰

学習データ全てをデータベースとして保持評価データ ( 入力 ) に対して， K 近傍の学習データを取

り出す取りだした K 近傍の学習データのみを用いて回帰関数を

学習する回帰関数は評価データが入力された後、入力値によって

動的に学習されることになる



位置 C

位置 B

位置 A

www.***.com

音響伝達特性の推定 (1/3)

traintrainO ,

観測信号 Oから音響伝達特性 H

を推定

学習データ

testO評価データ testO testH

音響伝達特性 Hから座標 θへの

回帰モデル f(H)を学習

回帰モデルを用いて

音響伝達特性から位置を推定

1

音源

位置

単一マイク

traintrainO 1,1

traintrainO 22 ,

traintrainO 33 ,

traintrainH 1,1

traintrainH 22 ,

traintrainH 33 ,

testHf

Hf

推定位置

www.***.com

音響伝達特性の推定 (2/3)

観測信号の定式化ケプストラム領域での観測信号をクリーン音声と音響伝達特性の線形加算モデルで仮定

);();();( nHnSnO

);(log);(log);(log nHnSnO

)()()( thtsto

ndHndSndO cepcepcep ;;;

時間領域

周波数領域

ケプストラム領域

短時間フーリエ変換

対数変換

離散コサイン変換

フレーム時刻周波数

:::

nt

ケプストラムの次元:d

未知

実際の環境では Sは未知であるため， Sの代わりに Sの確率モデル(HMM) を用いて最尤推定法で Hを推定する．

www.***.com

音響伝達特性の推定（ 3/3)

観測信号に対する尤度が最大になるように、 Hを推定する ( 最尤推定法 )

SH

HOH ,|Prmaxargˆ のパラメータクリーン音声HMMS :

解は EM アルゴリズムによって求められる

],|,ˆ|,,Pr[logmaxarg

|ˆmaxargˆ

SSH

H

HHcbOE

HHQH

音響伝達特性の更新式は以下のように求められる

b ccb

cb

b ccb

cbcb

d

ddndO

dH

2,

,

2,

,,

);(

)(ˆ

負担率:,,|,Pr, Scb HOcb

)(:

::

2 対角共分散を仮定分散

平均ケプストラムの次元

d

混合要素状態

::cb

www.***.com

各音源位置にてインパルス応答を測定し，クリーン音声に畳み込むことで残響信号をシミュレートした

クリーン音声は ATR 音声データベースを使用 -90 cm

-90 cm

90 cm

90 cm

15 cm

0

実験条件 (1/2)

Loudspeaker 2.4 m

2.4 m

6.3 m

7.0 m

Microphone

1.8 m

3.15 m

MicrophonesLoudspeaker

www.***.com

実験条件 (2/2)

特徴量MFCC ： 16 次元サンプリング周波数： 12kHz 　窓幅： 32 msec 　フレームシ

フト： 8 msec

回帰モデルの学習50 単語 (× 学習位置数 )局所的回帰における近傍サンプル数 K = 75

位置の推定Text closed : 評価データは学習単語と同じ発話 ( インパルス応

答を畳み込む前のクリーン音声 ) からなる 50 単語Text open : 評価データは学習単語と異なる発話からなる 116

単語

音響伝達特性の推定クリーン音声の学習データ数： 2620 単語 (上記の単語は含め

ない )音素数： 54 　 HMM の状態数： 3 　混合数： 32

www.***.com

垂直軸 (奥行き )移動における位置推定

スピーカの水平軸は 0 cm （正面）に固定 (既知とする ) 位置を奥行き方向に -90～ 90cm ， 15cm 間隔で収録

計 13 位置

-90, -60, -30, 0, 30, 60, 90 cm （ 30cm 間隔）を学習学習位置数：　７位置

-90, -75, -60, ..., 0, ..., 60, 75, 90 cm 　 (15cm 間隔 ) をテスト未学習位置 : ６位置

-75, -45, -15, 15, 45, 75 cm既学習位置数 : 7 位置

90, -60, -30, 0, 30, 60, 90 cm

Microphone

-90 cm

0cm

90cm

-75 cm・・

・

75cm

・・

・

www.***.com

垂直軸 (奥行き )移動の位置推定結果

相関係数で評価推定された位置と実際の位置が等しければ 1.0 を取る

Text closed

Text open

重回帰 0.90 0.69GPR 0.98 0.80SVR 0.97 0.83

全ての位置を評価対象とした場合

Text closed

Text open

重回帰 0.89 0.70GPR 0.94 0.82SVR 0.94 0.86

未学習位置のみを評価対象とした場合

www.***.com

垂直軸 (奥行き )移動の位置推定結果

SVR (Support Vector Regression) による位置推定結果青　：　未学習位置緑　：　既学習位置赤　：　正解の位置

-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90-100

-75

-50

-25

0

25

50

75

100

-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90-100

-75

-50

-25

0

25

50

75

100

実際の位置 [cm] 実際の位置 [cm]

推定

され

た位

置 [

cm]

Text closed Text open

www.***.com

水平軸移動における位置推定

Microphone

Loudspeaker

2.4 m

-90 0cm 90cm-75 ・・・

スピーカの垂直軸 (奥行き ) は 0 cm に固定 (既知とする ) 位置を奥行き方向に -90～ 90cm ， 15cm 間隔で収録

計 13 位置

-90, -60, -30, 0, 30, 60, 90 cm（ 30cm 間隔）を学習学習位置数：　７位置

-90, -75, -60, ..., 0, ..., 60, 75, 90 cm(15cm 間隔 ) をテスト未学習位置 : ６位置

-75, -45, -15, 15, 45, 75 cm既学習位置数 : 7 位置

90, -60, -30, 0, 30, 60, 90 cm

・・・ 75

www.***.com

水平軸移動の位置推定結果


Text closed

Text open

重回帰 0.72 0.48GPR 0.92 0.56SVR 0.92 0.58


Text closed

Text open

重回帰 0.57 0.39GPR 0.77 0.49SVR 0.82 0.51


www.***.com

水平軸移動の位置推定結果


実際の位置 [cm] 実際の位置 [cm]

推定

され

た位

置 [

cm]

-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90-100

-75

-50

-25

0

25

50

75

100

-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90-100

-75

-50

-25

0

25

50

75

100


www.***.com

考察・まとめ

音響伝達特性を用いることで単一マイクで音源位置を推定する手法を提案

回帰モデルを用いることで未学習位置を含めた位置の推定を検討

垂直（奥行き）方向の位置推定において比較的高い相関を確認

Text open の場合では音響伝達特性の推定誤差が影響

今後の課題水平・垂直の両方を含めた２次元位置の推定より少ない学習位置での推定音響伝達特性の正確な推定

www.***.com

ご清聴ありがとうございました

www.***.com

音源方向推定実験 (付録 )

www.***.com

音源方向推定実験

スピーカと音源の距離は約 2 m に固定 (既知とする ) 音源方向を 10°～ 170° ， 20° 間隔で収録

計 9 位置

10, 50, 90, 130, 170° （ 40° 間隔）を学習学習位置数：　 5 位置

10, 30, ..., 90, 110, ..., 170°(20° 間隔 ) をテスト未学習位置 : 4 位置

30, 70, 110, 150°既学習位置数 : 5 位置

10, 50, 90, 130, 170° microphone

2m10

30

90

170

50

インパルス応答は RWCP データベースのものを使用（他の実験とは異なる部屋環境）

www.***.com

音源方向推定結果


Text closed

Text open

重回帰 0.74 0.56GPR 0.86 0.66SVR 0.83 0.70


Text closed

Text open

重回帰 0.68 0.53GPR 0.62 0.58SVR 0.67 0.61


www.***.com

音源方向推定結果


実際の位置 [degree] 実際の位置 [degree]

推定

され

た位

置 [

degr

ee]


10 30 50 70 90 110 130 150 1700

20

40

60

80

100

120

140

160

180

10 30 50 70 90 110 130 150 1700

20

40

60

80

100

120

140

160

180

www.***.com

音響伝達特性の推定

www.***.com

観測信号の定式化

);();();( nHnSnO

);(log);(log);(log nHnSnO

)()()( thtsto

ndSndHndO cepcepcep ;;;

時間領域

周波数領域

ケプストラム領域

短時間フーリエ変換

対数変換

離散コサイン変換

フレーム時刻周波数

:::

nt

ケプストラムの次元:d

モデルパラメータ:

処理は全て MFCC 領域で行われる実際の環境では Sは未知であるため， Sの代わりに Sの統計モデルを用いて最尤推定法で Hを推定する．S は HMM (Hidden Markov Model) でモデル化する

未知

モデル領域 ScepnO nH

統計モデル化

www.***.com


観測信号に対する尤度が最大になるように、 H を推定する ( 最尤推定法 )

SH

HOH ,|Prmaxargˆ

フレーム番号混合重み混合要素状態状態遷移確率

:::::

nwcba

のパラメータクリーン音声HMMS :

解は EM アルゴリズムによって求められる

b c SS

S

SS

HcbOHOHcbO

HHcbOEHHQ

,ˆ|,,Prlog,|Pr

,|,,Pr],|,ˆ|,,Pr[log|ˆ

Q 関数の同時確率　　　　　　　　　　　　は、以下のように展開される SHcbO ,ˆ|,,Pr

Sn ncnbnbnbS

HncnbnO

waHcbO

,ˆ;,|Pr

,ˆ|,,Pr ,,1

www.***.com


フレーム番号混合重み混合要素状態状態遷移確率

:::::

nwcba

Sn ncnbnbnbS

HncnbnO

waHcbO

,ˆ;,|Pr

,ˆ|,,Pr ,,1

ケプストラム領域での O = S + H という仮定より

)(),()(),( ),();(,ˆ;,|Pr ncnbncnbS nHnONHncnbnO

クリーン音声の正規分布がH だけシフトされた

状態 b(n),混合要素 c(n)における O の確率分布

これらを Q 関数に代入し、を解く 0ˆ/|ˆ HHHQ

b cncnb

cb

b cncnb

ncnbcb

dn

ddndO

nndH

2)(),(

,

2)(),(

)(),(,

);(

);(ˆ

Scb HncnbOn ,ˆ|,,Pr,

www.***.com

音響伝達特性推定の流れ

観測信号 ndO ;

クリーン音声の音素 HMM

(a)

(i)

・・

・

(u)

音素認識認識結果 ( ラベル )i, k, i, o, i

音素 HMM を連結

(i) (k)

・・・

(i) (o) (i)

連結 HMM

音響伝達特性を推定),|Pr(maxargˆ

SH

HOH

S

1. あらかじめクリーン音声の音素 HMM を用意しておく2. 観測信号の音素認識を行う3. 音素認識の結果を元に音素 HMM を連結する4.連結された HMM を用いて音響伝達特性を推定する

H

www.***.com

位置推定実験 (付録 )

www.***.com

y軸 (奥行き )移動の実験

スピーカのｘ軸は 0 （正面）に固定位置を y軸 (奥行き ) 方向に -90～ 90cm 、 15cm 間隔

で収録

-90, -60, -30, 0, 30, 60, 90 cm （ 30cm 間隔）を学習

-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm 間隔 ) をテスト

未学習位置は -75, -45, -15, 15, 45, 75 cm

学習データ　：　 50 単語 x 位置評価データ　：　 116 単語 x 位置

33Microphone

Loudspeaker

-90 cm

0cm

90cm

-75 cm・・

・

www.***.com

y軸 (奥行き ) 推定結果

Root Mean Square Error (RMSE) で評価推定された位置と実際の位置との平均誤差 (cm) を表す数値は ( 未学習位置の RMSE / 既学習位置の RMSE)

34

RMSE(cm)

K = 50 K = 150 K = 250 大域的

重回帰 19.6 / 18.6

20.3 / 19.9

22.1 / 22.1

23.5 / 25.1

GPR 12.2 / 11.6

14.3 / 14.1

16.1 / 15.4

17.4 / 16.3

SVR 7.7 / 9.1 13.3 / 17.8

16.8 / 20.8

19.4 / 23.7RMSE(c

m)K = 50 K = 150 K = 250 大域的

重回帰 34.7 / 33.6

30.5 / 31.6

30.2 / 32.8

30.3 / 34.6

GPR 21.2 / 22.8

22.7 / 25.0

23.7 / 25.9

24.3 / 26.3

SVR 17.7 / 19.2

22.0 / 26.6

24.0 / 28.7

26.9 / 31.6

Hsub ( 伝達特性が正確に推定されている )

Hest ( 伝達特性には推定誤差が含まれる )

www.***.com

y軸 (奥行き ) 推定結果

最も誤差が小さかった条件下での推定結果

35

Hsub ( 伝達特性が正確に推定されている ) Hest ( 伝達特性には推定誤差が含まれる )

-110-90 -70 -50 -30 -10 10 30 50 70 90 110-110

-90

-70

-50

-30

-10

10

30

50

70

90

110

[cm]実測値

[cm]

推定

値

-110-90 -70 -50 -30 -10 10 30 50 70 90 110-110

-90

-70

-50

-30

-10

10

30

50

70

90

110

[cm]実測値

[cm]

推定

値

www.***.com

ｘ軸 (水平 )移動の実験

スピーカの y軸は 0 に固定位置を x軸 (水平 ) 方向に -90～ 90cm 、 15cm 間隔で

収録

-90, -60, -30, 0, 30, 60, 90 cm （ 30cm 間隔）を学習

-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm 間隔 ) をテスト

未学習位置は -75, -45, -15, 15, 45, 75 cm


36

Microphone

Loudspeaker

2.4 m

-90 0cm 90cm-75 ・・・

www.***.com

x軸 (水平移動 ) 推定結果

Root Mean Square Error (RMSE) で評価推定された位置と実際の位置との平均誤差 (cm) を表す数値は ( 未学習位置の RMSE / 既学習位置の RMSE)

37

RMSE(cm)

K = 50 K = 150 K = 250 大域的

重回帰 52.3 / 47.4

35.4 / 35.1

33.5 / 33.8

34.1 / 35.3

GPR 31.4 / 29.0

35.0 / 31.6

34.8 / 31.4

34.8 / 31.4

SVR 25.6 / 26.7

27.8 / 29.3

28.6 / 30.9

28.8 / 31.3RMSE(c

m)K = 50 K = 150 K = 250 大域的

重回帰 54.2 / 55.5

42.1 / 41.5

41.0 / 41.2

41.0 / 42.5

GPR 39.6 / 40.2

41.8 / 41.3

41.5 / 41.1

41.7 / 41.4

SVR 36.1 / 38.0

36.4 / 38.2

37.3 / 38.6

38.3 / 39.1



www.***.com

x軸 (水平移動 ) 推定結果


38


-110-90 -70 -50 -30 -10 10 30 50 70 90 110-110

-90

-70

-50

-30

-10

10

30

50

70

90

110

[cm]実測値

[cm]

推定

値

-110-90 -70 -50 -30 -10 10 30 50 70 90 110-110

-90

-70

-50

-30

-10

10

30

50

70

90

110

[cm]実測値

[cm]

推定

値

www.***.com

音源方向推定の実験

スピーカと音源の距離は約 2 m に固定音源方向を 10°～ 170° 、 20° 間隔で収録

10, 50, 90, 130, 170° （ 40° 間隔）を学習

10, 30, 50, 70, 90, 110, 130, 150, 170° (30° 間隔 ) をテスト

未学習位置は 30, 70, 110, 150°


39

microphone

2m10

30

90

170

50

www.***.com

音源方向の推定結果

Root Mean Square Error (RMSE) で評価推定された位置と実際の位置との平均誤差 (角度 ) を表す数値は ( 未学習位置の RMSE / 既学習位置の RMSE)

40

RMSE(角度 )

K = 50 K = 150 大域的

重回帰 63.9 / 12.1

63.6 / 14.5

65.3 / 17.0

GPR 28.5 / 10.7

22.9 / 11.4

22.0 / 11.4

SVR 20.3 / 10.8

18.9 / 12.1

22.7 / 12.2RMSE(角

度 )K = 50 K = 150 大域的

重回帰 50.3 / 49.2

42.6 / 41.7

42.2 / 42.8

GPR 32.7 / 40.9

33.7 / 42.3

33.4 / 43.4

SVR 29.4 / 31.5

31.6 / 35.3

32.5 / 37.1



www.***.com

音源方向の推定結果


41


-10 10 30 50 70 90 110 130 150 170 190-10

10

30

50

70

90

110

130

150

170

190

[degree]実測値

[degre

e]推

定値

-10 10 30 50 70 90 110 130 150 170 190-10

10

30

50

70

90

110

130

150

170

190

[degree]実測値

[degr

ee]推

定値

Documents

音響伝達特性を用いたシングルチャネル 音源位置推定における局所的回帰に基づく未学習位置の補間

音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間