Moment matching networkを用いた音声パラメータのランダム生成の検討

Moment matching networkを用いた

音声パラメータのランダム生成の検討

○高道慎之介 (東大院・情報理工)

郡山知樹 (東工大)

猿渡洋 (東大院・情報理工)

日本音響学会 2017年春季研究発表会

2-6-9

/13

概要

目的：自然音声のように「同一テキストでも発話毎に

音声特徴量が異なる」音声合成システム

– 同一テキストでも発話毎にスペクトルは違う [Inukai et al., 2013.]

– この音声のランダム性（発話間変動）を合成音声に持たせたい

提案：Moment-matching networkを用いた音声合成法

– 自然音声と合成音声のモーメントを揃えるようにDNNを学習

– サンプリングによる音声パラメータ生成

2

最尤生成と比較して音質劣化なしで，サンプリング生成を可能に

/13

通常の音声合成

(Mean squared errorの最小化)

3

Mean squared error

Linguistic feats.

Static-delta mean vectors

⋯ ⋯

⋯

⋯

time 𝑡 = 1

⋯ ⋯

⋯

⋯

⋯

time 𝑡 = 𝑇

⋯

Generated speech

params.

Natural speech params.

Parameter generation

⋯

[Wu et al., 2016.]

𝒚 𝒚 𝒙

条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定

/13

提案法

(条件付きMMDの最小化)

4

Conditional MMD

Linguistic feats.

𝒚

Static-delta mean vectors

𝒚

⋯

Generated speech

params.

Natural speech params.

Parameter generation

⋯

𝑁 𝟎, 𝑰 Frame-wise noise generator

time 𝑡 = 1

time 𝑡 = 𝑇

𝒙

⋯ ⋯

⋯

⋯

⋯ ⋯

⋯

⋯

⋯

モーメントマッチングによる経験分布表現に基づくサンプリング

/13

MMD (Maximum Mean Discrepancy)

5

2つのデータセットの統計量の不一致指標

Moment-matching network [Li et al., 2015.]

– MMDを最小化するように、ノイズ入力のDNNを学習

𝑁 𝟎, 𝑰

𝒚

𝒚

MMD = Tr 𝟏 ⋅ 𝑲𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲𝒚 ,𝒚 − 2Tr 𝟏 ⋅ 𝑲𝒚,𝒚

𝒚, 𝒚 のグラム行列 𝒚 , 𝒚 𝒚, 𝒚

⋯ ⋯

⋯

⋯

/13

条件付きMMD (CMMD: Conditional MMD)

条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]

Conditional moment-matching network [Ren et al., 2016.]

– CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習

6

𝒙 , 𝒙 のグラム行列の逆行列を含む行列

𝑁 𝟎, 𝑰

𝒚

𝒙 ⋯ ⋯

⋯

⋯

𝒚

CMMD = Tr 𝑳𝒙 ⋅ 𝑲𝒚,𝒚 + Tr 𝑳𝒙 ⋅ 𝑲𝒚 ,𝒚 − 2Tr 𝑳𝒙 ⋅ 𝑲𝒚,𝒚

𝒙

/13

音声合成への適用

グラム行列のカーネル関数をどう設計する？

– 𝒚（音声パラメータ）：ガウスカーネルなど

– 𝒙（コンテキストラベル）：ガウスカーネル？

• ほとんどの要素は1-of-K hotベクトル，非常にスパース…

Bottleneck特徴量を用いたカーネル計算

– 連続空間に写像したコンテキストでカーネルを計算

7

Context Speech feats.

Squared error 最小化で学習

Conditional MMD 最小化で学習

Speech feats.

⋯ ⋯

⋯

⋯

⋯ ⋯

⋯

⋯ Noise

/13

生成パラメータのサンプル

8

/13

従来手法との比較

9

項目従来法提案法

確率密度関数 Gaussian or GMM

(mixture density nets)

より複雑な分布

サンプリング全共分散の正規分布

(trajectory model)

単純な事前分布

最適化問題ミニマックス問題

(GAN [敵対的学習] )

最小化問題

従来法との関連 Divergenceに関連 (尤度比)

(GAN: Jensen-Shannon div.)

GV/MSに関連

(モーメント差)

Anti-spoofingの詐称 Replay-attack検出技術で検出

(最尤生成)

ランダム生成で

検出を緩和

[スペースの都合により引用を省略]

* GV/MS: 系列内変動／変調スペクトル

* GMM: 混合正規分布モデル

実験的評価

10

従来の生成と比較して，音質劣化なしでサンプリングできるか？

/13

実験条件

11

項目値・設定

学習データ音素バランス450文／話者 × 5話者

評価データ 53文／話者 × 1話者

入力特徴量 274次元コンテキスト＋ 5次元話者ID

出力特徴量 40次元メルケプストラム＋動的特徴量（計120次元）

Bottleneck特徴量 128次元

入力ノイズ 3次元/フレーム．正規分布からランダム生成

ネットワーク構造 Feed-Forward, 131 – 512×3 (ReLU) – 120 (Linear)

評価対象

conv：従来のdeep neural network音声合成で最尤生成 [Zen et al., 2013.]

pro (w/ rand): 提案法（ランダム生成）

pro (w/o rand): 提案法（ノイズ項を最尤推定で固定して生成）

/13

主観評価指標

（音質に関するABテスト）

12

サンプリングによる音質劣化なし＆従来法を上回る音質を達成

* エラーバーは95％信頼区間

/13

まとめ

目的：ランダム性を持つ音声合成を作りたい！

提案法：Moment-matching networkを用いた音声合成法

– 自然音声と合成音声のモーメントを揃えるようにDNNを学習

– サンプリングによる音声パラメータ生成

実験結果：

– サンプリングによる音質劣化なし

今後の予定：

– 動的特徴量の必要性

– 学習データ数の影響

– 自然音声の持つランダム性との比較

– 継続長決定・波形生成への応用 13

Science

Moment matching networkを用いた音声パラメータのランダム生成の検討