33
北北 北北 北北 北北 †† 北北 京京京京京京京京京京京京京京京京京京京京 †† 京京京京京京京京京 京京京京京京京京京京 京京京京京京京京 9-11 Mar. 2004

未知の楽器を考慮する 楽器音の音源同定

  • Upload
    dong

  • View
    38

  • Download
    0

Embed Size (px)

DESCRIPTION

未知の楽器を考慮する 楽器音の音源同定. 北原 鉄朗 † 後藤 真孝 †† 奥乃 博 † † 京都大学大学院情報学研究科知能情報学専攻 †† 産業技術総合研究所. 9-11 Mar. 2004. MPEG-7 : マルチメディアコンテンツに対する タグづけの 枠組み を提供 最低限の事項のみ規定 ⇒ タグの内容と自動付与法 について要検討. 研究の背景. ディジタル音楽配信 が普及し ユーザ個人が所有する音楽音響信号が増大 計算機で音楽を検索する技術が不十分 ⇒ 音楽音響信号に 適切なタグを付与. - PowerPoint PPT Presentation

Citation preview

Page 1: 未知の楽器を考慮する 楽器音の音源同定

北原 鉄朗† 後藤 真孝†† 奥乃 博†

† 京都大学大学院情報学研究科知能情報学専攻†† 産業技術総合研究所

未知の楽器を考慮する楽器音の音源同定

9-11 Mar. 2004

Page 2: 未知の楽器を考慮する 楽器音の音源同定

ディジタル音楽配信が普及しユーザ個人が所有する音楽音響信号が増大

計算機で音楽を検索する技術が不十分⇒ 音楽音響信号に適切なタグを付与

研究の背景

MPEG-7: マルチメディアコンテンツに対するタグづけの枠組みを提供

最低限の事項のみ規定⇒ タグの内容と自動付与法について要

検討

Page 3: 未知の楽器を考慮する 楽器音の音源同定

研究の目的音楽音響信号に対する楽器タグの付与

① 特にクラシック音楽では,使用楽器は楽曲を特徴づける重要なファクターであるe.g. 「ピアノソナタ」「弦楽四重奏」⇒「ピアノソナタの曲を検索」のようなタスクで有用

② 楽器名をキーとした頭出しに有用e.g. 「フルートが弾き始めるところから聴きたい」

③ 聴取者の好みや感性に依存しない

本発表では,そのための第1段階として,

単音を対象とした楽器音の音源同定を扱う

→ 楽器名の同定

Page 4: 未知の楽器を考慮する 楽器音の音源同定

何が問題なのか=未知楽器=楽器音の種類が膨大・多様

e.g. オーケストラ向け楽器,民族楽器シンセサイザーで合成した音, etc.

⇒ すべての音をあらかじめ学習することは事実上不可能

⇒ 未学習の楽器を適切に扱える仕組みが必要

未知楽器の問題(本研究にて初めて提起)

Page 5: 未知の楽器を考慮する 楽器音の音源同定

未知楽器の問題

人間は未知の楽器をどう理解するか

既知楽器⇒楽器名レベルで認識未知楽器⇒カテゴリーレベルで認識

予測:「楽器名はわからないけど,弦楽器系」

⇒一段抽象度の高いレベルで音をとらえる

バイオリンビオラ両者をシンセ

で合成した音

Page 6: 未知の楽器を考慮する 楽器音の音源同定

発表の流れ

① 使用する音源同定手法

② 楽器カテゴリーの自動作成

③ 未知楽器のカテゴリー同定実験

Page 7: 未知の楽器を考慮する 楽器音の音源同定

① 使用する音源同定手法

1. 特徴抽出( 129 個)

2. 主成分分析で 79 次元に次元圧縮

3. 線形判別分析で 18 次元にさらに次元圧縮

4. 各楽器の分布の平均と共分散を推定

5. ベイズ決定規則に基づいて楽器名を同定(事後確率が最大になる楽器名を見つける) )(log)|(logmaxargˆ ii pxp

i

※事後確率=入力音が当該楽器である確率

Page 8: 未知の楽器を考慮する 楽器音の音源同定

1. 特徴抽出( 129 個)例:周波数重心

フルート

① 使用する音源同定手法

ピアノ

Page 9: 未知の楽器を考慮する 楽器音の音源同定

1. 特徴抽出( 129 個)例:パワー包絡線の最小二乗法による近似直線の傾き ピアノ フルー

time [ms]

① 使用する音源同定手法

Page 10: 未知の楽器を考慮する 楽器音の音源同定

① 使用する音源同定手法

1. 特徴抽出( 129 個)

2. 主成分分析で 79 次元に次元圧縮

3. 線形判別分析で 18 次元にさらに次元圧縮

4. 各楽器の分布の平均と共分散を推定

5. ベイズ決定規則に基づいて楽器名を同定(事後確率が最大になる楽器名を見つける) )(log)|(logmaxargˆ ii pxp

i

※事後確率=入力音が当該楽器である確率

Page 11: 未知の楽器を考慮する 楽器音の音源同定

②楽器カテゴリーの自動作成課題: 同定に適した(=音響的特徴を反映

した)楽器カテゴリーをどのように得るか.解決策: 音源同定システムの特徴空間上で

階層的クラスタリングにより,自動作成

階層的クラスタリングにおける課題:音高などにより各楽器の特徴空間上が変化⇒分布に対してクラスタリング

(分布を 100[ 個 / 楽器 ]以上のデータで求める)

Page 12: 未知の楽器を考慮する 楽器音の音源同定
Page 13: 未知の楽器を考慮する 楽器音の音源同定

②楽器カテゴリーの自動作成

大分類 中分類 小分類 属する楽器

減衰系楽器 ──

ウクレレ以外

PF, CG, AG

ウクレレ UK

持続系楽器

弦楽器 ── VN, VL, VC

管楽器

サックス SS, AS, TS

クラリネット

CL

リコーダー RC

ブラス系+α

TR, TB, BS, FG

リード系 OB, PC, FL

Page 14: 未知の楽器を考慮する 楽器音の音源同定

③未知楽器のカテゴリー同定(1) 楽器名レベルで同定(2) 認識対象音から (1) の結果の学習データ(分布)までのマハラノビス距離を算出

(3) (2) がしきい値未満なら, (1) の結果を出力しきい値以上なら,カテゴリーレベルで再同定

p(X|wflute)

p(X|wpiano) このマハラノビス距離をしきい値処理

Page 15: 未知の楽器を考慮する 楽器音の音源同定

③未知楽器のカテゴリー同定学習データ:自然楽器音

RWC-MDB-I-2001 から抜粋した19 楽器 6,247 音からランダムに半分を選択

既知楽器の評価データ:自然楽器音 上記の残り

未知楽器の評価データ:電子楽器音ヤマハ製MU2000 に収録されている

- エレクトリックピアノ (ElecPf) , - シンセストリングス (SynStr) , - シンセブラス (SynBrs).

Page 16: 未知の楽器を考慮する 楽器音の音源同定

実験結果

既知楽器で約 20% ,未知楽器で約 23% の誤り率.既知・未知判定=約 85%カテゴリー同定=約 92%従来の発音機構ベースのカテゴリーでは約 43%∵従来のカテゴリーは電子楽器を考慮せず

0% 20% 40% 60% 80% 100%

未知楽器

既知楽器

楽器名レベルで正解カテゴリーレベルで正解不正解

Page 17: 未知の楽器を考慮する 楽器音の音源同定

楽器ごとの実験結果

0%

20%

40%

60%

80%

100%E

lecP

f A

Ele

cPf

B

Sy

nS

tr A

Sy

nS

tr B

Sy

nB

rs A

Sy

nB

rs B

Re

co

gn

itio

n R

ate

s

ElecPf A: 低精度∵既知・未知判定の 精度が低い⇒既知楽器に近い 未知楽器の扱い 要検討

Page 18: 未知の楽器を考慮する 楽器音の音源同定

ま と め音源同定における新たな問題を提起

「未知楽器の問題」(未学習の楽器をどう扱うか)

解決策:カテゴリーレベルで同定⇒「楽器名は分からないが弦楽器系」というhuman-like な楽器音理解

上記のカテゴリー同定に適した楽器カテゴリーを自動作成する手法を提案

[今後の課題 ] 混合音・楽曲への適用

Page 19: 未知の楽器を考慮する 楽器音の音源同定
Page 20: 未知の楽器を考慮する 楽器音の音源同定

質疑用スライド

Page 21: 未知の楽器を考慮する 楽器音の音源同定

楽器名 ピアノ,クラシックギター,ウクレレ,アコースティックギター,バイオリン,ビオラ,チェロ,トランペット,トロンボーン,ソプラノサックス,アルトサックス,テナーサックス,バリトンサックス,オーボエ,ファゴット,クラリネット,ピッコロ,フルート,リコーダ

楽器個体 3種類( TR, OBのみ 2種類)音の強さ 1楽器,強・中・弱の 3種類ずつ奏法 通常の奏法のみデータ数 1楽器 153~ 696個(総数: 6,247

個)

Page 22: 未知の楽器を考慮する 楽器音の音源同定

ピアノ ピアノ (PF)

ギター クラシックギター(CG)

ウクレレ (UK)

アコースティックギター (AG)

弦楽器 バイオリン (VN)

ビオラ (VL)

チェロ (VC)

金管楽器 トランペット (TR) トロンボーン (TB)

サックス ソプラノサックス(SS)

アルトサックス(AS)

テナーサックス(TS)

バリトンサックス(BS)

複簧楽器 オーボエ (OB) ファゴット (FG)

クラリネット

クラリネット (CL)

無簧楽器 ピッコロ (PC)

フルート (FL)

リコーダー (RC)

Page 23: 未知の楽器を考慮する 楽器音の音源同定

(1) スペクトルに関する定常的特徴( 40 個)周波数重心, etc

(2) パワーの時間変化に関する特徴( 35 個)パワー包絡線の線形最小二乗法による近似直線の傾き, etc

(3) 各種変調の振幅/振動数( 32 個)振幅変調,周波数変調,周波数重心の時間変化, MFCC の時間変化

(4) 発音開始直後のピーク尖度に関する特徴( 22個)

129 個の特徴量の概要

本研究で用いた特徴量について

Page 24: 未知の楽器を考慮する 楽器音の音源同定

発音開始直後のピーク尖度に関する特徴

各周波数成分( 11 次倍音まで)を取り出し,各ピークの尖度(とんがり度)を算出→非調波成分の豊富さを表す

Page 25: 未知の楽器を考慮する 楽器音の音源同定

楽器の発音機構に基づく階層表現大分類 中分類 小分類 属する楽器

弦楽器 ──

打弦楽器 PF

撥弦楽器 CG, UK, AG

擦弦楽器 VN, VL, VC

管楽器木管楽器

無簧楽器 PC, FL, RC

単簧楽器 SS, AS, TS, BS, CL

複簧楽器 OB, FG

金管楽器 ── TR, TB

打楽器 (省略) (省略) (省略)

Page 26: 未知の楽器を考慮する 楽器音の音源同定
Page 27: 未知の楽器を考慮する 楽器音の音源同定

未知楽器同定に用いた電子楽器音

ヤマハ製MU2000 に収録されている - エレクトリックピアノ (ElecPf) , - シンセストリングス (SynStr) , - シンセブラス (SynBrs).

以下の観点から選択 - さまざまな音楽で用いられている, - 自然楽器のどれかに似ているが異なる音, - 「小分類」レベルで,あいまいなく正解設定可.

Page 28: 未知の楽器を考慮する 楽器音の音源同定

未知楽器のカテゴリーレベルの認識

0%

20%

40%

60%

80%

100%E

lecP

f A

Ele

cPf

B

Syn

Str

A

Syn

Str

B

Syn

Brs

A

Syn

Brs

B

Rec

og

nit

ion

Rat

es

Conv.Prop.1

提案手法によって得られた楽器カテゴリーを用いることで,未知楽器を精度良く認識

楽器の発音機構に基づく分類は,(機械的発音機構の持たない)電子楽器には有効でないことを示唆

Page 29: 未知の楽器を考慮する 楽器音の音源同定

楽器音の「既知」か「未知」かの判定

0%

20%

40%

60%

80%

100%

50 40 30 25 40 30 25 40 30 25

Acc

ura

cy

既知楽器未知楽器

PCA (23dim.) PCA (18dim.) PCA+LDA (18dim.)

Threshold:

Feat. Space:

PCA (23dim) において,約 85% の正解率

Page 30: 未知の楽器を考慮する 楽器音の音源同定

楽器音の「既知」か「未知」かの判定

0%

20%

40%

60%

80%

100%

50 40 30 25 40 30 25 40 30 25

Acc

ura

cy

既知楽器未知楽器

PCA (23dim.) PCA (18dim.) PCA+LDA (18dim.)

Threshold:

Feat. Space:

「既知を正しく既知」と「未知を正しく未知」はトレードオフ⇒応用に応じた適切なしきい値設定の必要性

Page 31: 未知の楽器を考慮する 楽器音の音源同定

楽器音の「既知」か「未知」かの判定

0%

20%

40%

60%

80%

100%

50 40 30 25 40 30 25 40 30 25

Acc

ura

cy

既知楽器未知楽器

PCA (23dim.) PCA (18dim.) PCA+LDA (18dim.)

Threshold:

Feat. Space:

PCA+ LDA は精度低∵ LDA は学習データの分離を良くする次元圧縮法

Page 32: 未知の楽器を考慮する 楽器音の音源同定

多様な奏法を扱う場合の課題

奏法による音響的違いを考慮したシンボル化⇒ 特徴ベクトルの分布を奏法別に作って

本研究のカテゴリー作成法を適用(音響的違いの顕著な奏法は別カテゴ

リー)

Piano(Normal)

Violin(Pizz.)

Violin(Normal)

Violin(Vibrato)

イメージ図

Page 33: 未知の楽器を考慮する 楽器音の音源同定

カテゴリー同定の利用法ピアノ曲の検索では…再現率重視なら「ピアノに似た楽器」を含める適合率重視なら「ピアノに似た楽器」を含めない

「ピアノ」と「ピアノに似た楽器」をともに含む曲で両者を区別しながら採譜できる

音楽演奏の映像に対するタグ付けでは…音から「楽器名はわからないが弦楽器」映像から「楽器名○○」⇒弦楽器に属する新たな楽器として再学習