Upload
saruwatarilabutokyo
View
364
Download
1
Embed Size (px)
Citation preview
統計的バイノーラル信号表現と
その音源分離への応用
東京大学・大学院情報理工学系研究科
猿渡 洋
(2015年7月)
電気音響研究会・招待講演
発表の流れ
研究背景と目的
従来手法
非負値行列因子分解を用いた音源分離手法
一般化MMSE-STSA推定器を用いた音源分離手法
提案手法
時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離
評価実験
まとめと今後の課題
2
発表の流れ
研究背景と目的
従来手法
非負値行列因子分解を用いた音源分離手法
一般化MMSE-STSA推定器を用いた音源分離手法
提案手法
時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離
評価実験
まとめと今後の課題
3
研究背景:バイノーラル音楽音源分離
マルチチャネル信号は多くの信号処理技術に応用される
マイクロフォンアレイによる録音信号 (アレイ信号処理)
一般的なステレオ音楽信号 (音楽信号処理)
ダミーヘッドによる両耳録音信号
バイノーラル信号の音源分離では以下の問題が生じる
抽出対象音の定位を保持しつつ音源分離を行わねばならない
未知の頭部伝達関数 (HRTF)による変形に対しても高精度に分離を行わねばならない
4
本研究の対象 (バイノーラル信号)
しかし…
定位を保持し,未知のHRTFに対応し頑健かつ高精度に動作するバイノーラル音源分離手法は未だ確立されていない
発表の流れ
研究背景と目的
従来手法
非負値行列因子分解を用いた音源分離手法
一般化MMSE-STSA推定器を用いた音源分離手法
提案手法
時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離
評価実験
まとめと今後の課題
5
混合信号のモデル
信号の定義
:観測信号
:伝達関数
: 妨害音信号
:目的音信号
これ以降,各信号における下付き文字 は
それぞれ左耳と右耳での信号を表すとする
: 周波数インデックス : 時間フレームインデックス
8
従来手法: NMFを用いた音源分離
Nonnegative Matrix Factorization (NMF) [Lee, et al., 2001]
スパース分解表現による特徴量抽出手法
非負値行列を2つの非負値行列の積で近似表現する
所望の基底を用いてスペクトログラムを再構成することで音源分離を行うことができる 7
Amplitude
Am
plit
ud
e
観測行列 (スペクトログラム)
基底行列 (頻出スペクトルパターン)
アクティベーション行列 (時間的なゲイン変化)
Time
𝑓 : 周波数ビン数
τ : 時間フレーム数
k: 基底数
Time
Freq
uen
cy
Freq
uen
cy
従来手法: 基底変形型教師ありNMF
基底変形型教師ありNMF (Deformation SNMF) [Kitamura, et al., 2013]
分離したい目的音源のサンプル音を事前学習する
事前学習した教師基底を観測音信号に適応させ分離を行う
学習プロセス
教師音から作成した教師スペクトル基底
分離目的音の教師音 (音階等)
わずかに異なる
分離プロセス 最適化 分離プロセス 最適化
教師基底に対する変形項
従来手法: 一般化MMSE-STSA推定器 [Breithaupt, et al., 2008]
目的音事前分布がカイ分布だと仮定するminimum
mean-square error short-time spectral amplitude
(MMSE-STSA) ベイズ推定
9
r = 1は目的音波形がガウス分布、r <1は優ガウス分布に従う
: 信号 xのp.d.f. : 形状母数 : ガンマ関数
観測音中の目的音 カイ分布
目的音振幅スペクトルの誤差が最小となるように推定
10
推定目的音
: 推定目的音 : ゲイン関数
: 合流型超幾何関数
: 事前SNR
: 事後SNR
: 形状母数 : ガンマ関数
: 忘却係数 : 妨害音のパワースペクトル
従来手法: 一般化MMSE-STSA推定器 [Breithaupt, et al., 2008]
: 振幅圧縮パラメータ
• 観測音中の目的音を最もよく表す形状母数の値は未知
• 非定常な妨害音に対応できない
• カイ分布を用いた時系列データモデリングによって,時間方向の影響(残響など)に適応して分離可能.
• 加法型の変形方法では,適切な変形を行うことが難しい
• 基底の変形と音源分離を同時に行うため,最適化が困難
従来手法の利点と欠点
11
Deformation SNMF
• 教師基底の変形によって,周波数特性の変化に適応して
分離可能.
一般化MMSE-STSA推定法
発表の流れ
研究背景と目的
従来手法
非負値行列因子分解を用いた音源分離手法
一般化MMSE-STSA推定器を用いた音源分離手法
提案手法
時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離
まとめと今後の課題
12
Freq
uen
cy
Amplitude Amplitude
Freq
uen
cy
時変な変形 (フレーム外変動)
Amplitude
Freq
uen
cy
時不変な変形 (周波数変形) 13
未知のHRTFによる信号の変形 A
mp
litu
de
Time
Am
plit
ud
e
Time
Am
plit
ud
e
Time
波形信号
時間周波数
信号
: Time window
Freq
uen
cy
Amplitude Amplitude
Freq
uen
cy
時変な変形 (フレーム外変動)
Amplitude
Freq
uen
cy
時不変な変形 (周波数変形) 14
未知のHRTFによる信号の変形 A
mp
litu
de
Time
Am
plit
ud
e
Time
Am
plit
ud
e
Time
波形信号
時間周波数
信号
: Time window
Deformation
SNMFにより対応
一般化MMSE-
STSA推定器により対応
カイ分布における時系列モデリングの問題点
観測音中の目的音を最もよく表す形状母数の値は未知.
Deformation SNMFの基底変形における問題点
目的音に対応した精度のよい基底変形を行うことが困難.
提案手法における各問題点の解決方法
15
提案手法における問題点と解決方法
より良い基底変形の枠組みを導入する
時系列モデリング
基底変形
観測データからブラインドに形状母数を推定する
16
STFT
Non-target signal
estimation by SNMF
Generalized MMSE-STSA
estimator
Equi binaural
spectral gain calculation
Target prior
estimation
ISTFT
Supervised basis training
Supervised basis update
Spectral weight training,
true false
提案手法の概要
Target prior estimation
Basis deformation
提案手法のブロック図
一般化MMSE-STSA推定器により目的音を抽出.
時変,時不変変形への適応を反復して行う.
統計的バイノーラルモデルの自動適応に基づく両耳音楽信号分離
目的音振幅スペクトルの誤差が最小となるように推定
18
推定目的音
: 推定目的音 : ゲイン関数
: 合流型超幾何関数
: 事前SNR
: 事後SNR
: 形状母数 : ガンマ関数
: 忘却係数 : 妨害音のパワースペクトル
一般化MMSE-STSA推定器
: 振幅圧縮パラメータ
目的音振幅スペクトルの誤差が最小となるように推定
19
推定目的音
: 推定目的音 : ゲイン関数
: 合流型超幾何関数
: 事前SNR
: 事後SNR
: 形状母数 : ガンマ関数
: 忘却係数 : 妨害音のパワースペクトル
一般化MMSE-STSA推定器
: 振幅圧縮パラメータ
未知
未知
目的音振幅スペクトルの誤差が最小となるように推定
20
推定目的音
: 推定目的音 : ゲイン関数
: 合流型超幾何関数
: 事前SNR
: 事後SNR
: 形状母数 : ガンマ関数
: 忘却係数 : 妨害音のパワースペクトル
一般化MMSE-STSA推定器
: 振幅圧縮パラメータ
SNMFにより推定
形状母数とカートシス
21
目的音振幅スペクトルの4次統計量(カートシス)を求めることで形状母数が推定可能→でも目的音は未知!?
カイ分布 の形状母数rとカートシスの関係
: m次モーメント
: カイ分布の確率密度
関数(p.d.f.)
: カートシス
加法信号のm次モーメント算出における問題
22
観測音 目的音 妨害音 未知 既知 既知
波形
逆畳み込みは困難→何か別の方法は無いか?
畳み込み
未知 既知 既知
p.d.f.
• キュムラント km(x):対数特性関数の級数展開
特徴
• 特性関数
モーメント・キュムラント変換 [1/4]
(m次モーメント)
(m次キュムラント)
キュムラントの加法性
モーメントの乗法性
キュムラント・モーメント変換を駆使すれば様々な混合確率過程の統計量分解も可能
モーメント・キュムラント変換 [2/4]
• キュムラントからのモーメントの導出
: を分割するパターン
:分割された各ブロック :ブロックのサイズ
: の分割数(ブロック数)
– Faà di Bruno’s formula
モーメント・キュムラント変換 [3/4]
m = 3 の場合
1 2 3 1 2 3 1 3 2
2 3 1 1 2 3
+ +
+ +
• モーメントからのキュムラントの導出
モーメント・キュムラント変換 [4/4]
目的音振幅スペクトルのカートシス推定
目的音振幅スペクトルカートシス(複素数ドメイン)
実部と虚部でi.i.d.を仮定すると次の式が成り立つ
振幅スペクトルドメインへの変換
28
: 観測音の振幅スペクトル
: SNMFによって得られる
妨害音の振幅スペクトル
目的音のカートシス推定 [Murota, et al., ICASSP2014]
29
目的音振幅スペクトルカートシス
• 観測音とSNMFの推定値のみから解析的に目的音のカートシスが計算可能
• 観測音中に埋もれている目的音を表す形状母数は、可観測なデータのみから閉形式にて推定可能
• これを両耳個別に適用すれば、左右における時系列の統計的な違いを表現できるのではないか?
: 観測音の振幅スペクトル
: SNMFによって得られる妨害音
の振幅スペクトル
事前分布に着目したバイノーラル信号モデル
30
左耳
右耳 NR(f,t)
NL (f,t)
SL (f,t)
SR(f,t)
s(f,t) hL(f)
hR(f)
(a) 従来のバイノーラル決定論的信号モデル
hR (f)
hL (f) HRTF
(b) 事前分布に着目した統計的信号モデル
未知
SL (f,t)=hL(f)s(f,t)
SR (f,t)=hR(f)s(f,t)
左耳:
右耳:
SL (f,t)+NL(f,t)
SR(f,t)+NR(f,t)
左右形状母数
のみを決める
問題に帰着
音像定位に関する問題
個別の統計モデルを用いた一般化MMSE-STSA推定器
両耳のゲインは個別に計算されたものを用いて良いのか?
統計的な手法に基づいているので,推定値(ゲイン関数)に揺らぎが生じる.
両耳信号推定における音像定位改善
左右の耳で共通のゲインを用いることで定位問題を改善する.
31
両耳間のゲインが同期していないグリッドがあるので,
定位感に劣化が生じる(音像のふらつき等).
エラー関数
両耳共通ゲインの導出方針
32
: 共通化ゲイン
上記のエラー関数を最小化する を求める(事前分布の元で)
: 振幅圧縮パラメータ
直接 を求めるのは困難なため2段階の最適化に分ける
1. 各チャネル毎に最適化(事前分布を意識した最適化)
2. 上記の結果を用いて を近似最適化(事前分布は無視)
1. 各チャネルごとの最適化
• 各チャネル個別のスペクトルゲインを補助変数として導入すると,エラー関数は次のように書くことができる。
33
エラー関数の展開
1. 各チャネルごとの最適化
• 各チャネル個別のスペクトルゲインを補助変数として導入すると,エラー関数は次のように書くことができる。
34
エラー関数の展開
1. 各チャネルごとの最適化
• 各チャネル個別のスペクトルゲインを補助変数として導入すると,エラー関数は次のように書くことができる。
35
エラー関数の展開
≒0
≒0
近似エラー関数の定式化
2. 共通ゲインの導出
36
上式メインコスト部は
単純な最小二乗問題
なので、右式の根で
最小値をとる
両耳それぞれに
おける事前分布
に基づいて最適化
両耳共通ゲイン
LチャネルにおけるMMSE最適スペクトルゲイン
RチャネルにおけるMMSE最適スペクトルゲイン
(これら2個のゲインは,一般化MMSE-STSA推定器によって計算されたもの)
2.共通ゲインの導出(続き)
スペクトル基底の反復変形に基づく教師信号ミスマッチ問題解決
問題点
加法型の変形では,時不変の変形を表すことが難しい.
基底の変形と音源分離を同時に行うため,最適化が困難.
提案手法における基底変形の方針
変形を時不変なスペクトル重み(積)の形で表す
基底変形と音源分離を別のステップに分けて行う
一般化MMSE-STSA推定により得られた推定目的音に近づくよう変形を行う → 本処理とSNMF+MMSE-STSAの繰り返し
Deformation SNMFにおける問題点
26
教師スペクトル基底 変形項(正負値)
及び を最適化
Deformation SNMFの分解モデル
発表の流れ
研究背景と目的
従来手法
非負値行列因子分解を用いた音源分離手法
一般化MMSE-STSA推定器を用いた音源分離手法
提案手法
時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離
評価実験
まとめと今後の課題
40
実験条件(教師と観測音がミスマッチ)
41
楽器音 (MIDI) Ob., Cl., Vc., Pf.
観測音(MIDI) Obとその他1種類を選び等パワーで混合したもの
目的音 Ob.
教師音 (MIDI) 2 オクターブ上昇する目的楽器 24 音(伝達特性は異なる)
基底数 k 目的音: 100 妨害音 50
反復回数 学習時: 500 分離時: 400
サンプリング周波数 44100
忘却係数 α 0.97
サブバンド分割数 M 128
評価値 SDR: 分離度合いと人工歪みの少なさを含む総合的な分
離音源の品質
0°
90° −90° 15°
観測音の音源配置:
前方15度刻み.目的音と妨害音は
同じ方向に配置
評価実験: 既存手法との比較
実験目的
目的音の事前分布を推定することによる効果を確認する
反復して基底を変形させることによる効果を確認する
比較手法
42
手法名 ポストフィルタ 妨害音推定 事前分布推定 NMFの反復
Equi-gain WF ウィーナフィルタ Deformatin
SNMF しない しない
Equi-gain MMSE-
STSA
MMSE-STSA
estimator
Deformatin
SNMF しない しない
Gain-min MMSE-
STSA
MMSE-STSA
estimator
Deformatin
SNMF しない しない
Equi-gain GMMSE-
STSA
一般化MMSE-
STSA estimator
Deformatin
SNMF する しない
Proposed
method
一般化MMSE-
STSA estimator
反復型
Deformation
SNMF
する する
実験結果(目的音: Ob.)
スレッショルドパラメータ: 0.8, 反復数: 4
43
実験結果(目的音: Ob.)
スレッショルドパラメータ: 0.8, 反復数: 4
44
事前分布を推定する
事前分布を推定しない
実験結果(目的音: Ob.)
スレッショルドパラメータ: 0.8, 反復数: 4
45
反復あり
反復なし
主観評価結果
ゲイン共通化を行う場合と行わない場合の差をXAB試験により比較
46
まとめと今後の課題
バイノーラル信号を対象として定位を保持し,未知のHRTFに対して頑健かつ高精度に目的音源を分離する新しい手法を提案した
観測音中の目的音に適応し分離を行う手法を提案した
従来手法より高い分離精度を実現した
解析フレーム長を超える伝達関数を扱うことが可能となった
新たな基底変形手法を,様々な問題に応用することが出来る
伝達関数による変形以外も吸収できるような枠組みを導入する.
47
まとめ
今後の課題
[2015年・日本音響学会秋季研究発表会にて報告予定]