Ea2015 7for ss

統計的バイノーラル信号表現と

その音源分離への応用

東京大学・大学院情報理工学系研究科

猿渡洋

（2015年7月）

電気音響研究会・招待講演

発表の流れ

研究背景と目的

従来手法

非負値行列因子分解を用いた音源分離手法

一般化MMSE-STSA推定器を用いた音源分離手法

提案手法

時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離

評価実験

まとめと今後の課題

2

発表の流れ


従来手法



提案手法


評価実験


3

研究背景:バイノーラル音楽音源分離

マルチチャネル信号は多くの信号処理技術に応用される

マイクロフォンアレイによる録音信号（アレイ信号処理）

一般的なステレオ音楽信号（音楽信号処理）

ダミーヘッドによる両耳録音信号

バイノーラル信号の音源分離では以下の問題が生じる

抽出対象音の定位を保持しつつ音源分離を行わねばならない

未知の頭部伝達関数（HRTF）による変形に対しても高精度に分離を行わねばならない

4

本研究の対象（バイノーラル信号）

しかし…

定位を保持し，未知のHRTFに対応し頑健かつ高精度に動作するバイノーラル音源分離手法は未だ確立されていない

発表の流れ


従来手法



提案手法


評価実験


5

混合信号のモデル

信号の定義

：観測信号

：伝達関数

: 妨害音信号

：目的音信号

これ以降，各信号における下付き文字は

それぞれ左耳と右耳での信号を表すとする

：周波数インデックス：時間フレームインデックス

8

従来手法: NMFを用いた音源分離

Nonnegative Matrix Factorization (NMF) [Lee, et al., 2001]

スパース分解表現による特徴量抽出手法

非負値行列を2つの非負値行列の積で近似表現する

所望の基底を用いてスペクトログラムを再構成することで音源分離を行うことができる 7

Amplitude

Am

plit

ud

e

観測行列 (スペクトログラム)

基底行列 (頻出スペクトルパターン)

アクティベーション行列 (時間的なゲイン変化)

Time

𝑓 : 周波数ビン数

τ : 時間フレーム数

k: 基底数

Time

Freq

uen

cy

Freq

uen

cy

従来手法: 基底変形型教師ありNMF

基底変形型教師ありNMF （Deformation SNMF） [Kitamura, et al., 2013]

分離したい目的音源のサンプル音を事前学習する

事前学習した教師基底を観測音信号に適応させ分離を行う

学習プロセス

教師音から作成した教師スペクトル基底

分離目的音の教師音 (音階等)

わずかに異なる

分離プロセス最適化分離プロセス最適化

教師基底に対する変形項

従来手法: 一般化MMSE-STSA推定器 [Breithaupt, et al., 2008]

目的音事前分布がカイ分布だと仮定するminimum

mean-square error short-time spectral amplitude

(MMSE-STSA) ベイズ推定

9

r = 1は目的音波形がガウス分布、r <1は優ガウス分布に従う

: 信号 xのp.d.f. : 形状母数 : ガンマ関数

観測音中の目的音カイ分布

目的音振幅スペクトルの誤差が最小となるように推定

10

推定目的音

: 推定目的音 : ゲイン関数

: 合流型超幾何関数

: 事前SNR

: 事後SNR

: 形状母数 : ガンマ関数

: 忘却係数 : 妨害音のパワースペクトル

従来手法: 一般化MMSE-STSA推定器 [Breithaupt, et al., 2008]

: 振幅圧縮パラメータ

• 観測音中の目的音を最もよく表す形状母数の値は未知

• 非定常な妨害音に対応できない

• カイ分布を用いた時系列データモデリングによって，時間方向の影響（残響など）に適応して分離可能．

• 加法型の変形方法では，適切な変形を行うことが難しい

• 基底の変形と音源分離を同時に行うため，最適化が困難

従来手法の利点と欠点

11

Deformation SNMF

• 教師基底の変形によって，周波数特性の変化に適応して

分離可能．

一般化MMSE-STSA推定法

発表の流れ


従来手法



提案手法



12

Freq

uen

cy

Amplitude Amplitude

Freq

uen

cy

時変な変形（フレーム外変動）

Amplitude

Freq

uen

cy

時不変な変形（周波数変形） 13

未知のHRTFによる信号の変形 A

mp

litu

de

Time

Am

plit

ud

e

Time

Am

plit

ud

e

Time

波形信号

時間周波数

信号

: Time window

Freq

uen

cy

Amplitude Amplitude

Freq

uen

cy

時変な変形（フレーム外変動）

Amplitude

Freq

uen

cy

時不変な変形（周波数変形） 14

未知のHRTFによる信号の変形 A

mp

litu

de

Time

Am

plit

ud

e

Time

Am

plit

ud

e

Time

波形信号

時間周波数

信号

: Time window

Deformation

SNMFにより対応

一般化MMSE-

STSA推定器により対応

カイ分布における時系列モデリングの問題点

観測音中の目的音を最もよく表す形状母数の値は未知．

Deformation SNMFの基底変形における問題点

目的音に対応した精度のよい基底変形を行うことが困難．

提案手法における各問題点の解決方法

15

提案手法における問題点と解決方法

より良い基底変形の枠組みを導入する

時系列モデリング

基底変形

観測データからブラインドに形状母数を推定する

16

STFT

Non-target signal

estimation by SNMF

Generalized MMSE-STSA

estimator

Equi binaural

spectral gain calculation

Target prior

estimation

ISTFT

Supervised basis training

Supervised basis update

Spectral weight training,

true false

提案手法の概要

Target prior estimation

Basis deformation

提案手法のブロック図

一般化MMSE-STSA推定器により目的音を抽出．

時変，時不変変形への適応を反復して行う．

統計的バイノーラルモデルの自動適応に基づく両耳音楽信号分離


18

推定目的音



: 事前SNR

: 事後SNR



一般化MMSE-STSA推定器



19

推定目的音



: 事前SNR

: 事後SNR





未知

未知


20

推定目的音



: 事前SNR

: 事後SNR





SNMFにより推定

形状母数とカートシス

21

目的音振幅スペクトルの４次統計量（カートシス）を求めることで形状母数が推定可能→でも目的音は未知！？

カイ分布の形状母数rとカートシスの関係

: m次モーメント

: カイ分布の確率密度

関数（p.d.f.）

: カートシス

加法信号のm次モーメント算出における問題

22

観測音目的音妨害音未知既知既知

波形

逆畳み込みは困難→何か別の方法は無いか？

畳み込み

未知既知既知

p.d.f.

• キュムラント km(x)：対数特性関数の級数展開

特徴

• 特性関数

モーメント・キュムラント変換 [1/4]

(m次モーメント)

(m次キュムラント)

キュムラントの加法性

モーメントの乗法性

キュムラント・モーメント変換を駆使すれば様々な混合確率過程の統計量分解も可能


• キュムラントからのモーメントの導出

：を分割するパターン

：分割された各ブロック：ブロックのサイズ

：の分割数（ブロック数）

– Faà di Bruno’s formula


m = 3 の場合

1 2 3 1 2 3 1 3 2

2 3 1 1 2 3

+ +

+ +

• モーメントからのキュムラントの導出


目的音振幅スペクトルのカートシス推定

目的音振幅スペクトルカートシス(複素数ドメイン)

実部と虚部でi.i.d.を仮定すると次の式が成り立つ

振幅スペクトルドメインへの変換

28

：観測音の振幅スペクトル

： SNMFによって得られる

妨害音の振幅スペクトル

目的音のカートシス推定 [Murota, et al., ICASSP2014]

29

目的音振幅スペクトルカートシス

• 観測音とSNMFの推定値のみから解析的に目的音のカートシスが計算可能

• 観測音中に埋もれている目的音を表す形状母数は、可観測なデータのみから閉形式にて推定可能

• これを両耳個別に適用すれば、左右における時系列の統計的な違いを表現できるのではないか？

：観測音の振幅スペクトル

： SNMFによって得られる妨害音

の振幅スペクトル

事前分布に着目したバイノーラル信号モデル

30

左耳

右耳 NR(f,t)

NL (f,t)

SL (f,t)

SR(f,t)

s(f,t) hL(f)

hR(f)

(a) 従来のバイノーラル決定論的信号モデル

hR (f)

hL (f) HRTF

(b) 事前分布に着目した統計的信号モデル

未知

SL (f,t)=hL(f)s(f,t)

SR (f,t)=hR(f)s(f,t)

左耳:

右耳:

SL (f,t)+NL(f,t)

SR(f,t)+NR(f,t)

左右形状母数

のみを決める

問題に帰着

音像定位に関する問題

個別の統計モデルを用いた一般化MMSE-STSA推定器

両耳のゲインは個別に計算されたものを用いて良いのか？

統計的な手法に基づいているので，推定値（ゲイン関数）に揺らぎが生じる．

両耳信号推定における音像定位改善

左右の耳で共通のゲインを用いることで定位問題を改善する．

31

両耳間のゲインが同期していないグリッドがあるので，

定位感に劣化が生じる（音像のふらつき等）．

エラー関数

両耳共通ゲインの導出方針

32

: 共通化ゲイン

上記のエラー関数を最小化するを求める（事前分布の元で）


直接を求めるのは困難なため2段階の最適化に分ける

1. 各チャネル毎に最適化（事前分布を意識した最適化）

2. 上記の結果を用いてを近似最適化（事前分布は無視）

1. 各チャネルごとの最適化

• 各チャネル個別のスペクトルゲインを補助変数として導入すると，エラー関数は次のように書くことができる。

33

エラー関数の展開



34




35


≒0

≒0

近似エラー関数の定式化

２. 共通ゲインの導出

36

上式メインコスト部は

単純な最小二乗問題

なので、右式の根で

最小値をとる

両耳それぞれに

おける事前分布

に基づいて最適化

両耳共通ゲイン

LチャネルにおけるMMSE最適スペクトルゲイン

RチャネルにおけるMMSE最適スペクトルゲイン

（これら2個のゲインは，一般化MMSE-STSA推定器によって計算されたもの）

２．共通ゲインの導出（続き）

スペクトル基底の反復変形に基づく教師信号ミスマッチ問題解決

問題点

加法型の変形では，時不変の変形を表すことが難しい．

基底の変形と音源分離を同時に行うため，最適化が困難．

提案手法における基底変形の方針

変形を時不変なスペクトル重み（積）の形で表す

基底変形と音源分離を別のステップに分けて行う

一般化MMSE-STSA推定により得られた推定目的音に近づくよう変形を行う → 本処理とSNMF＋MMSE-STSAの繰り返し

Deformation SNMFにおける問題点

26

教師スペクトル基底変形項（正負値）

及びを最適化

Deformation SNMFの分解モデル

発表の流れ


従来手法



提案手法


評価実験


40

実験条件（教師と観測音がミスマッチ）

41

楽器音 (MIDI) Ob., Cl., Vc., Pf.

観測音(MIDI) Obとその他1種類を選び等パワーで混合したもの

目的音 Ob.

教師音 (MIDI) 2 オクターブ上昇する目的楽器 24 音（伝達特性は異なる）

基底数 k 目的音: 100 妨害音 50

反復回数学習時: 500 分離時: 400

サンプリング周波数 44100

忘却係数 α 0.97

サブバンド分割数 M 128

評価値 SDR: 分離度合いと人工歪みの少なさを含む総合的な分

離音源の品質

0°

90° −90° 15°

観測音の音源配置:

前方15度刻み.目的音と妨害音は

同じ方向に配置

評価実験: 既存手法との比較

実験目的

目的音の事前分布を推定することによる効果を確認する

反復して基底を変形させることによる効果を確認する

比較手法

42

手法名ポストフィルタ妨害音推定事前分布推定 NMFの反復

Equi-gain WF ウィーナフィルタ Deformatin

SNMF しないしない

Equi-gain MMSE-

STSA

MMSE-STSA

estimator

Deformatin


Gain-min MMSE-

STSA

MMSE-STSA

estimator

Deformatin


Equi-gain GMMSE-

STSA

一般化MMSE-

STSA estimator

Deformatin

SNMF するしない

Proposed

method

一般化MMSE-

STSA estimator

反復型

Deformation

SNMF

するする

実験結果（目的音: Ob.）

スレッショルドパラメータ: 0.8, 反復数: 4

43



44

事前分布を推定する

事前分布を推定しない



45

反復あり

反復なし

主観評価結果

ゲイン共通化を行う場合と行わない場合の差をXAB試験により比較

46


バイノーラル信号を対象として定位を保持し，未知のHRTFに対して頑健かつ高精度に目的音源を分離する新しい手法を提案した

観測音中の目的音に適応し分離を行う手法を提案した

従来手法より高い分離精度を実現した

解析フレーム長を超える伝達関数を扱うことが可能となった

新たな基底変形手法を，様々な問題に応用することが出来る

伝達関数による変形以外も吸収できるような枠組みを導入する．

47

まとめ

今後の課題

[2015年・日本音響学会秋季研究発表会にて報告予定]

Engineering

Ea2015 7for ss