Upload
thuy
View
60
Download
0
Embed Size (px)
DESCRIPTION
音響伝達特性を用いたシングルチャネル 音源位置推定における局所的回帰に基づく未学習位置の補間. 第 14 回 音声言語シンポジウム 2012 年 12 月 20, 21 日 高島遼一,滝口哲也,有木康雄 神戸大学大学院. 研究背景・目的 (1/4). 音源位置推定 収録した音声から,その音源の位置を推定する 話者位置推定⇒ 対話ロボット,音声強調など 話者の推定⇒ 議事録作成など 従来の音源位置推定法 複数のマイク を用いて観測される信号間の 位相差 を利用. :時間差. :音速. d. マイクロホンアレー(マイク数 32 ). - PowerPoint PPT Presentation
Citation preview
音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間
第 14 回 音声言語シンポジウム2012 年 12 月 20, 21 日
高島遼一,滝口哲也,有木康雄神戸大学大学院
www.***.com
研究背景・目的 (1/4)
音源位置推定収録した音声から,その音源の位置を推定する話者位置推定 ⇒ 対話ロボット,音声強調など話者の推定 ⇒ 議事録作成など
従来の音源位置推定法複数のマイクを用いて観測される信号間の位相差を利
用
d
sindc
c :時間
差:音速
cマイクロホンアレー(マイク数32 )
www.***.com
研究背景・目的 (2/4)
単一マイクによる音源位置推定法は,いまだ確立されていない
システムの縮小化,複数マイクの手法との複合
提案アプローチ音響伝達特性を用いた単一チャネル音源位置推定法
位相差などのマイク間の情報を用いない,単一マイクでも行える音源位置推定の実現
www.***.com
研究背景・目的 (3/4)
先行研究音響伝達特性の識別に基づくシングルチャネル音源位置推
定(Takashima, et al., ICASSP, 2010)
Microphone
S
O
音響伝達特性(インパルス応答)は,音源の位置ごとに異なる特性をもつ音源位置毎に音響伝達特性を学習評価音声について,その音響伝達特性を識別することで音源位置を推定
S 位置 A
位置 BHB
HA音響伝達特性
音響伝達特性
www.***.com
研究背景・目的 (4/4)
先行研究ではパターン認識に基づき音源位置を推定特徴量: 音響伝達特性 (MFCC : 16 次元 )クラス: 音源位置
特徴量 ( 伝達特性 MFCC) 空間
位置 A
位置 C位置 B
位置 D の伝達特性
• あらかじめ学習した位置しか推定(認識)できない
• 位置 D を推定する (= クラスを作成する )ためには位置 D の学習サンプルが必要
= 位置 B
研究目的:限られた位置の学習サンプルのみを用いて未学習位置の推定を行う
提案アプローチ:回帰分析による未学習位置の推定
www.***.com
提案手法の流れ
traintrainO ,
観測信号 Oから音響伝達特性 H
を推定
学習データ
testO評価データ testO testH
音響伝達特性 Hから座標 θへの
回帰モデル f(H)を学習
回帰モデルを用いて
音響伝達特性から位置を推定
1
音源
位置
単一マイク2
3
traintrainO 1,1
traintrainO 22 ,
traintrainO 33 ,
traintrainH 1,1
traintrainH 22 ,
traintrainH 33 ,
testHf
Hf
推定位置
www.***.com
回帰モデルの学習
回帰分析説明変数: 音響伝達特性 (MFCC : 16 次元 )目的変数 : 音源位置 ( 座標 )
回帰分析手法 線形回帰
重回帰分析非線形回帰
Gaussian Process Regression (GPR) (C. E. Rasmussen, et al., 2006)Support Vector Regression (SVR) (A.J. Smola, et al., 2004)
学習方法局所的回帰
説明変数( 伝達特性 H)
Hf目的変数( 位置 )
位置 C
位置 B
位置 A位置 D
www.***.com
大域的回帰
一般的な回帰モデル学習法 あらかじめ学習サンプル全てを用いて一つの回帰関数を
学習するどの位置の推定においても単一の回帰関数が用いられる
部屋内のあらゆる位置と音響伝達特性の関係をたった一つの関数で表現しきれるのか?
説明変数( 伝達特性 H)
Hf目的変数( 位置 )
位置 C
位置 B
位置 A
www.***.com
局所的回帰
学習データ全てをデータベースとして保持 評価データ ( 入力 ) に対して, K 近傍の学習データを取
り出す 取りだした K 近傍の学習データのみを用いて回帰関数を
学習する 回帰関数は評価データが入力された後、入力値によって
動的に学習されることになる
説明変数( 伝達特性 H)
Hf目的変数( 位置 )
位置 C
位置 B
位置 A
www.***.com
音響伝達特性の推定 (1/3)
traintrainO ,
観測信号 Oから音響伝達特性 H
を推定
学習データ
testO評価データ testO testH
音響伝達特性 Hから座標 θへの
回帰モデル f(H)を学習
回帰モデルを用いて
音響伝達特性から位置を推定
1
音源
位置
単一マイク
traintrainO 1,1
traintrainO 22 ,
traintrainO 33 ,
traintrainH 1,1
traintrainH 22 ,
traintrainH 33 ,
testHf
Hf
推定位置
www.***.com
音響伝達特性の推定 (2/3)
観測信号の定式化ケプストラム領域での観測信号をクリーン音声と音響伝達特性の線形加算モデルで仮定
);();();( nHnSnO
);(log);(log);(log nHnSnO
)()()( thtsto
ndHndSndO cepcepcep ;;;
時間領域
周波数領域
ケプストラム領域
短時間フーリエ変換
対数変換
離散コサイン変換
フレーム時刻周波数
:::
nt
ケプストラムの次元:d
未知
実際の環境では Sは未知であるため, Sの代わりに Sの確率モデル(HMM) を用いて最尤推定法で Hを推定する.
www.***.com
音響伝達特性の推定( 3/3)
観測信号に対する尤度が最大になるように、 Hを推定する ( 最尤推定法 )
SH
HOH ,|Prmaxargˆ のパラメータクリーン音声HMMS :
解は EM アルゴリズムによって求められる
],|,ˆ|,,Pr[logmaxarg
|ˆmaxargˆ
SSH
H
HHcbOE
HHQH
音響伝達特性の更新式は以下のように求められる
b ccb
cb
b ccb
cbcb
d
ddndO
dH
2,
,
2,
,,
);(
)(ˆ
負担率:,,|,Pr, Scb HOcb
)(:
::
2 対角共分散を仮定分散
平均ケプストラムの次元
d
混合要素状態
::cb
www.***.com
各音源位置にてインパルス応答を測定し,クリーン音声に畳み込むことで残響信号をシミュレートした
クリーン音声は ATR 音声データベースを使用 -90 cm
-90 cm
90 cm
90 cm
15 cm
0
実験条件 (1/2)
Loudspeaker 2.4 m
2.4 m
6.3 m
7.0 m
Microphone
1.8 m
3.15 m
MicrophonesLoudspeaker
www.***.com
実験条件 (2/2)
特徴量MFCC : 16 次元サンプリング周波数: 12kHz 窓幅: 32 msec フレームシ
フト: 8 msec
回帰モデルの学習50 単語 (× 学習位置数 )局所的回帰における近傍サンプル数 K = 75
位置の推定Text closed : 評価データは学習単語と同じ発話 ( インパルス応
答を畳み込む前のクリーン音声 ) からなる 50 単語Text open : 評価データは学習単語と異なる発話からなる 116
単語
音響伝達特性の推定クリーン音声の学習データ数: 2620 単語 (上記の単語は含め
ない )音素数: 54 HMM の状態数: 3 混合数: 32
www.***.com
垂直軸 (奥行き )移動における位置推定
スピーカの水平軸は 0 cm (正面)に固定 (既知とする ) 位置を奥行き方向に -90~ 90cm , 15cm 間隔で収録
計 13 位置
-90, -60, -30, 0, 30, 60, 90 cm ( 30cm 間隔)を学習 学習位置数: 7位置
-90, -75, -60, ..., 0, ..., 60, 75, 90 cm (15cm 間隔 ) をテスト 未学習位置 : 6位置
-75, -45, -15, 15, 45, 75 cm既学習位置数 : 7 位置
90, -60, -30, 0, 30, 60, 90 cm
Microphone
-90 cm
0cm
90cm
-75 cm・・
・
75cm
・・
・
www.***.com
垂直軸 (奥行き )移動の位置推定結果
相関係数で評価推定された位置と実際の位置が等しければ 1.0 を取る
Text closed
Text open
重回帰 0.90 0.69GPR 0.98 0.80SVR 0.97 0.83
全ての位置を評価対象とした場合
Text closed
Text open
重回帰 0.89 0.70GPR 0.94 0.82SVR 0.94 0.86
未学習位置のみを評価対象とした場合
www.***.com
垂直軸 (奥行き )移動の位置推定結果
SVR (Support Vector Regression) による位置推定結果青 : 未学習位置緑 : 既学習位置赤 : 正解の位置
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90-100
-75
-50
-25
0
25
50
75
100
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90-100
-75
-50
-25
0
25
50
75
100
実際の位置 [cm] 実際の位置 [cm]
推定
され
た位
置 [
cm]
Text closed Text open
www.***.com
水平軸移動における位置推定
Microphone
Loudspeaker
2.4 m
-90 0cm 90cm-75 ・・・
スピーカの垂直軸 (奥行き ) は 0 cm に固定 (既知とする ) 位置を奥行き方向に -90~ 90cm , 15cm 間隔で収録
計 13 位置
-90, -60, -30, 0, 30, 60, 90 cm( 30cm 間隔)を学習 学習位置数: 7位置
-90, -75, -60, ..., 0, ..., 60, 75, 90 cm(15cm 間隔 ) をテスト 未学習位置 : 6位置
-75, -45, -15, 15, 45, 75 cm既学習位置数 : 7 位置
90, -60, -30, 0, 30, 60, 90 cm
・・・ 75
www.***.com
水平軸移動の位置推定結果
相関係数で評価推定された位置と実際の位置が等しければ 1.0 を取る
Text closed
Text open
重回帰 0.72 0.48GPR 0.92 0.56SVR 0.92 0.58
全ての位置を評価対象とした場合
Text closed
Text open
重回帰 0.57 0.39GPR 0.77 0.49SVR 0.82 0.51
未学習位置のみを評価対象とした場合
www.***.com
水平軸移動の位置推定結果
SVR (Support Vector Regression) による位置推定結果青 : 未学習位置緑 : 既学習位置赤 : 正解の位置
実際の位置 [cm] 実際の位置 [cm]
推定
され
た位
置 [
cm]
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90-100
-75
-50
-25
0
25
50
75
100
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90-100
-75
-50
-25
0
25
50
75
100
Text closed Text open
www.***.com
考察・まとめ
音響伝達特性を用いることで単一マイクで音源位置を推定する手法を提案
回帰モデルを用いることで未学習位置を含めた位置の推定を検討
垂直(奥行き)方向の位置推定において比較的高い相関を確認
Text open の場合では音響伝達特性の推定誤差が影響
今後の課題水平・垂直の両方を含めた2次元位置の推定より少ない学習位置での推定音響伝達特性の正確な推定
www.***.com
ご清聴ありがとうございました
www.***.com
音源方向推定実験 (付録 )
www.***.com
音源方向推定実験
スピーカと音源の距離は約 2 m に固定 (既知とする ) 音源方向を 10°~ 170° , 20° 間隔で収録
計 9 位置
10, 50, 90, 130, 170° ( 40° 間隔)を学習 学習位置数: 5 位置
10, 30, ..., 90, 110, ..., 170°(20° 間隔 ) をテスト 未学習位置 : 4 位置
30, 70, 110, 150°既学習位置数 : 5 位置
10, 50, 90, 130, 170° microphone
2m10
30
90
170
50
インパルス応答は RWCP データベースのものを使用(他の実験とは異なる部屋環境)
www.***.com
音源方向推定結果
相関係数で評価推定された位置と実際の位置が等しければ 1.0 を取る
Text closed
Text open
重回帰 0.74 0.56GPR 0.86 0.66SVR 0.83 0.70
全ての位置を評価対象とした場合
Text closed
Text open
重回帰 0.68 0.53GPR 0.62 0.58SVR 0.67 0.61
未学習位置のみを評価対象とした場合
www.***.com
音源方向推定結果
SVR (Support Vector Regression) による位置推定結果青 : 未学習位置緑 : 既学習位置赤 : 正解の位置
実際の位置 [degree] 実際の位置 [degree]
推定
され
た位
置 [
degr
ee]
Text closed Text open
10 30 50 70 90 110 130 150 1700
20
40
60
80
100
120
140
160
180
10 30 50 70 90 110 130 150 1700
20
40
60
80
100
120
140
160
180
www.***.com
音響伝達特性の推定
www.***.com
観測信号の定式化
);();();( nHnSnO
);(log);(log);(log nHnSnO
)()()( thtsto
ndSndHndO cepcepcep ;;;
時間領域
周波数領域
ケプストラム領域
短時間フーリエ変換
対数変換
離散コサイン変換
フレーム時刻周波数
:::
nt
ケプストラムの次元:d
モデルパラメータ:
処理は全て MFCC 領域で行われる実際の環境では Sは未知であるため, Sの代わりに Sの統計モデルを用いて最尤推定法で Hを推定する.S は HMM (Hidden Markov Model) でモデル化する
未知
モデル領域 ScepnO nH
統計モデル化
www.***.com
音響伝達特性の推定( 1/2)
観測信号に対する尤度が最大になるように、 H を推定する ( 最尤推定法 )
SH
HOH ,|Prmaxargˆ
フレーム番号混合重み混合要素状態状態遷移確率
:::::
nwcba
のパラメータクリーン音声HMMS :
解は EM アルゴリズムによって求められる
b c SS
S
SS
HcbOHOHcbO
HHcbOEHHQ
,ˆ|,,Prlog,|Pr
,|,,Pr],|,ˆ|,,Pr[log|ˆ
Q 関数の同時確率 は、以下のように展開される SHcbO ,ˆ|,,Pr
Sn ncnbnbnbS
HncnbnO
waHcbO
,ˆ;,|Pr
,ˆ|,,Pr ,,1
www.***.com
音響伝達特性の推定( 2/2)
フレーム番号混合重み混合要素状態状態遷移確率
:::::
nwcba
Sn ncnbnbnbS
HncnbnO
waHcbO
,ˆ;,|Pr
,ˆ|,,Pr ,,1
ケプストラム領域での O = S + H という仮定より
)(),()(),( ),();(,ˆ;,|Pr ncnbncnbS nHnONHncnbnO
クリーン音声の正規分布がH だけシフトされた
状態 b(n),混合要素 c(n)における O の確率分布
これらを Q 関数に代入し、 を解く 0ˆ/|ˆ HHHQ
b cncnb
cb
b cncnb
ncnbcb
dn
ddndO
nndH
2)(),(
,
2)(),(
)(),(,
);(
);(ˆ
Scb HncnbOn ,ˆ|,,Pr,
www.***.com
音響伝達特性推定の流れ
観測信号 ndO ;
クリーン音声の音素 HMM
(a)
(i)
・・
・
(u)
音素認識 認識結果 ( ラベル )i, k, i, o, i
音素 HMM を連結
(i) (k)
・・・
(i) (o) (i)
連結 HMM
音響伝達特性を推定),|Pr(maxargˆ
SH
HOH
S
1. あらかじめクリーン音声の音素 HMM を用意しておく2. 観測信号の音素認識を行う3. 音素認識の結果を元に音素 HMM を連結する4.連結された HMM を用いて音響伝達特性を推定する
H
www.***.com
位置推定実験 (付録 )
www.***.com
y軸 (奥行き )移動の実験
スピーカのx軸は 0 (正面)に固定 位置を y軸 (奥行き ) 方向に -90~ 90cm 、 15cm 間隔
で収録
-90, -60, -30, 0, 30, 60, 90 cm ( 30cm 間隔)を学習
-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm 間隔 ) をテスト
未学習位置は -75, -45, -15, 15, 45, 75 cm
学習データ : 50 単語 x 位置評価データ : 116 単語 x 位置
33Microphone
Loudspeaker
-90 cm
0cm
90cm
-75 cm・・
・
www.***.com
y軸 (奥行き ) 推定結果
Root Mean Square Error (RMSE) で評価推定された位置と実際の位置との平均誤差 (cm) を表す数値は ( 未学習位置の RMSE / 既学習位置の RMSE)
34
RMSE(cm)
K = 50 K = 150 K = 250 大域的
重回帰 19.6 / 18.6
20.3 / 19.9
22.1 / 22.1
23.5 / 25.1
GPR 12.2 / 11.6
14.3 / 14.1
16.1 / 15.4
17.4 / 16.3
SVR 7.7 / 9.1 13.3 / 17.8
16.8 / 20.8
19.4 / 23.7RMSE(c
m)K = 50 K = 150 K = 250 大域的
重回帰 34.7 / 33.6
30.5 / 31.6
30.2 / 32.8
30.3 / 34.6
GPR 21.2 / 22.8
22.7 / 25.0
23.7 / 25.9
24.3 / 26.3
SVR 17.7 / 19.2
22.0 / 26.6
24.0 / 28.7
26.9 / 31.6
Hsub ( 伝達特性が正確に推定されている )
Hest ( 伝達特性には推定誤差が含まれる )
www.***.com
y軸 (奥行き ) 推定結果
最も誤差が小さかった条件下での推定結果
35
Hsub ( 伝達特性が正確に推定されている ) Hest ( 伝達特性には推定誤差が含まれる )
-110-90 -70 -50 -30 -10 10 30 50 70 90 110-110
-90
-70
-50
-30
-10
10
30
50
70
90
110
[cm]実測値
[cm]
推定
値
-110-90 -70 -50 -30 -10 10 30 50 70 90 110-110
-90
-70
-50
-30
-10
10
30
50
70
90
110
[cm]実測値
[cm]
推定
値
www.***.com
x軸 (水平 )移動の実験
スピーカの y軸は 0 に固定 位置を x軸 (水平 ) 方向に -90~ 90cm 、 15cm 間隔で
収録
-90, -60, -30, 0, 30, 60, 90 cm ( 30cm 間隔)を学習
-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm 間隔 ) をテスト
未学習位置は -75, -45, -15, 15, 45, 75 cm
学習データ : 50 単語 x 位置評価データ : 116 単語 x 位置
36
Microphone
Loudspeaker
2.4 m
-90 0cm 90cm-75 ・・・
www.***.com
x軸 (水平移動 ) 推定結果
Root Mean Square Error (RMSE) で評価推定された位置と実際の位置との平均誤差 (cm) を表す数値は ( 未学習位置の RMSE / 既学習位置の RMSE)
37
RMSE(cm)
K = 50 K = 150 K = 250 大域的
重回帰 52.3 / 47.4
35.4 / 35.1
33.5 / 33.8
34.1 / 35.3
GPR 31.4 / 29.0
35.0 / 31.6
34.8 / 31.4
34.8 / 31.4
SVR 25.6 / 26.7
27.8 / 29.3
28.6 / 30.9
28.8 / 31.3RMSE(c
m)K = 50 K = 150 K = 250 大域的
重回帰 54.2 / 55.5
42.1 / 41.5
41.0 / 41.2
41.0 / 42.5
GPR 39.6 / 40.2
41.8 / 41.3
41.5 / 41.1
41.7 / 41.4
SVR 36.1 / 38.0
36.4 / 38.2
37.3 / 38.6
38.3 / 39.1
Hsub ( 伝達特性が正確に推定されている )
Hest ( 伝達特性には推定誤差が含まれる )
www.***.com
x軸 (水平移動 ) 推定結果
最も誤差が小さかった条件下での推定結果
38
Hsub ( 伝達特性が正確に推定されている ) Hest ( 伝達特性には推定誤差が含まれる )
-110-90 -70 -50 -30 -10 10 30 50 70 90 110-110
-90
-70
-50
-30
-10
10
30
50
70
90
110
[cm]実測値
[cm]
推定
値
-110-90 -70 -50 -30 -10 10 30 50 70 90 110-110
-90
-70
-50
-30
-10
10
30
50
70
90
110
[cm]実測値
[cm]
推定
値
www.***.com
音源方向推定の実験
スピーカと音源の距離は約 2 m に固定 音源方向を 10°~ 170° 、 20° 間隔で収録
10, 50, 90, 130, 170° ( 40° 間隔)を学習
10, 30, 50, 70, 90, 110, 130, 150, 170° (30° 間隔 ) をテスト
未学習位置は 30, 70, 110, 150°
学習データ : 50 単語 x 位置評価データ : 116 単語 x 位置
39
microphone
2m10
30
90
170
50
www.***.com
音源方向の推定結果
Root Mean Square Error (RMSE) で評価推定された位置と実際の位置との平均誤差 (角度 ) を表す数値は ( 未学習位置の RMSE / 既学習位置の RMSE)
40
RMSE(角度 )
K = 50 K = 150 大域的
重回帰 63.9 / 12.1
63.6 / 14.5
65.3 / 17.0
GPR 28.5 / 10.7
22.9 / 11.4
22.0 / 11.4
SVR 20.3 / 10.8
18.9 / 12.1
22.7 / 12.2RMSE(角
度 )K = 50 K = 150 大域的
重回帰 50.3 / 49.2
42.6 / 41.7
42.2 / 42.8
GPR 32.7 / 40.9
33.7 / 42.3
33.4 / 43.4
SVR 29.4 / 31.5
31.6 / 35.3
32.5 / 37.1
Hsub ( 伝達特性が正確に推定されている )
Hest ( 伝達特性には推定誤差が含まれる )
www.***.com
音源方向の推定結果
最も誤差が小さかった条件下での推定結果
41
Hsub ( 伝達特性が正確に推定されている ) Hest ( 伝達特性には推定誤差が含まれる )
-10 10 30 50 70 90 110 130 150 170 190-10
10
30
50
70
90
110
130
150
170
190
[degree]実測値
[degre
e]推
定値
-10 10 30 50 70 90 110 130 150 170 190-10
10
30
50
70
90
110
130
150
170
190
[degree]実測値
[degr
ee]推
定値