論文の紹介A comparative evaluation for qbh

論文の紹介A Comparat ive Evaluat ion of Search Technique s for Query-by-

Humming Using the MUSART Testbed(MUSART Testbed の使用での QbH の検索手法の比較

的評価 )

ルトフィアナ　サリ池田研 B4

目次• Introduction

QbH (Query-by-Humming)とは使われるクエリ＆データベースMUSART TestbedとはMRRという実験結果を比較するために使われる値とは

実験とその結果自分の考え

目次Introduction実験とその結果紹介された手法MRRの比較結果人工クエリを使用した場合の結果N-グラムの使用に関して２段検索での N-グラム結果の感度に関する研究エラーの原因もっと大きなデータベーしに向けては結論

自分の考え

Introduct ion (1/4)-QbH とは -

鼻歌をクエリとするような音楽の検索 (music retrieval)鼻歌だけでなく、普通に歌うことをクエリとするのもあり内容（コンテンツ）ベースの検索の一種クエリの入力者は音楽知識が必要なし

Introduct ion (2/4)- クエリとデータベース -

クエリ：鼻歌と歌声データベース：音楽のMIDIファイル

MIDIファイルとは→mp3などの音楽ファイルと違い、アナログ信号は出さない→音楽再生の機械や計算機などのプロトコルがシンクロナイズ（同期）できる→計算機が読めるような楽譜→中身は音符、音高、リズムなど

Introduct ion (2/4)- クエリとデータベース -

クエリ 1　→　データベース 1クエリ 2　→　データベース 2

データベース 1 ：ビートルズの曲（テーマ数は2844)、MIDIファイルは 5.4MBで、そのテーマは 0.96MB

データベース 2 ：ポピューラと伝統的な曲（テーマ数は8926)、MIDIファイルは 33MBで、そのテーマは 2.2MB

クエリ 1 ： 10人に１０曲（１人に一曲）のビートルズ曲を聞かせ、一番印象のある曲の部分を歌ってもらったもの

（一回以上クエリを入力 ok、合計で 131のクエリあり）クエリ 2 ：学生がボランティアでデータベース 2の曲を自

由に歌ったもの（合計で 165のクエリあり）

Introduct ion (3/4)-MUSART Testbed とは -

• Michigan大学と Carnegie Mellon 大学が共同研究プロジェクトに使われるデータセットのようなもの

• いろいろな QbHの手法を比較するため• クエリ集、データターゲット、分析ソフトウェア、検索アルゴリズムが中に含まれ


クエリの前処理• あるクエリの基本周波数を 10 ms ごとにフレームとして区切る

• フレームを音符の列にするには、５つ以上のフレームを一番近い音符の値に量子化する

• ある音符が終わるというのは値が大きく変わる時と何も検出されない時


ターゲット曲の前処理• MIDI ’ファイルが Theme Extractor’というプログラムで抽出され、そのテーマを求める

• 元々テーマは、音楽家が音楽の索引（インデクス）を作るために使われ、どこがテーマなのかを決めるには音楽知識が必要例： http://www.multimedialibrary.com/barlow/index.asp• Theme Extractor’はその作業を自動的に行う

http://www.multimedialibrary.com/barlow/index.asp


何故テーマを抽出？• Theme Extractorが抽出するのは、ある曲の中にある一番繰り返し数の多い音符の列で、実際の試験では手でテーマを決める結果と比べると正解率が高いと証明済

• テーマは人間が普通歌うもの• 検索対象の量を減らすため

Introduct ion (4/4)-MRR という実験結果を比較するために使われる値とは -

• 正確さの順で、あるクエリに対する答えのリストを評価するための統計的な値

例 :

実験とその結果 (1/9)- 紹介された手法 -

Note Interval

•文字列： <Pitch, Rhythm>　として取り扱う•Pitch ：相対音高 (Relative Pitch)•Ryhtm : Log IOI Ratio

• D(A,B) :: 列 A (=a1a2...am) と列 B (=b1b2...bn) の相似性 (similarityを計算し、結果のランクが求められる

• ai あるいは bj は <Pitch, Rhythm>というデータの単位のようなもの


N-グラム


Melodic Contourクエリとターゲット曲の前処理に少し違いがあり：１つのフレームは 100msごとに区切る検出される音符を量子化されないので、フレームとフレームの比較は信号を比較することと同様

クエリのテンポを 0.5, 1.0, 2.0 の倍数で延ばしたりち縮じんだりする（クエリのテンポが間違っている可能性があるため）Dynamic Time Warping (DTW) でクエリのフレームとターゲットのフレームを比較する


HMM ( 隠れマルコフモデル ) 隠れ状態： si = <E[i], K[i], S’[i]> →

観測される値： ot = <Pitch, Rhythm> = <P[t], R[t]>

左図：普通の HMMの構造右図：ここで使われる構造

• クエリが上記の前処理で観測モデルされたら、データベスと比較される


CubyHum

実験とその結果 (2/9)-MRR の比較結果 -

Search Algor i thm クエリ１の MRR

クエリ２の MRR

Note Interval 0.134 0.282

N-グラム 0.090 0.110

Melodic Interval 0.210 0.329

HMM 0.270 0.310

CubyHum 0.023 0.093

実験とその結果 (3/9)- 人工クエリを使用した場合の結果 -

実験とその結果 (4/9)-N- グラムの使用に関して -

実験とその結果 ( ５ /9)-2 段検索での N- グラム -

実験とその結果 (6/9)- 結果の感度に関する研究 -

実験とその結果 (7/9)- エラーの原因 -

• 人間が歌ったクエリは元の音楽との違いが大きい

• 50%：正確ににマッチ• 20%：部分的にマッチ• 25%：逆順番や繰り返しが含まれるクエリからのマッチ

• 残り：マッチしない

* 正確にマッチというのは、クエリの音符と習得されたデータの音符が一致すること

実験とその結果 (8/9)- もっと大きなデータベースに向けては -

実験とその結果 (9/9)- 結論 -

• 上記にあげられたシステムはクエリのクオリティが一番結果に影響を与えることが分かった

自分の考え

• どのぐらいクエリのクオリティが悪いのか？• クエリの前処理には音高のクオリティなどを上げることは可能？

• ここであげられた手法（アルゴリズム）はクエリとターゲットのデータとマッチするかどうかは一つ一つ行われたが、クラスタ (や indexing ?)などをすることで構造的な検索方法はないか？

参照：• Roger B. Dannenberg, et al (2007, February 1). A Comparative of “

Search Techniques for Query-by-Humming Using the MUSART Testbed”. Journal of the American Society for Information Science and Technology 58

• Roger B. Dannenberg, et al (2004). The MUSART Testbed for “Query-by-Humming Evaluation”. Computer Music Journal Volume 28, Number 2

• Meek Colin, Birmingham William P. . (2001). Thematic Extractor” “ISMIR

• Wikipedia. Mean reciprocal rank. http://en.wikipedia.org/wiki/Mean_reciprocal_rank. アクセス日 :　 2011 年 5 月 16 日

• Wikipedia. Musical Instrument Digital Interface. http://en.wikipedia.org/wiki/Musical_Instrument_Digital_Interface.アクセス日： 2011 年５月１９日

ご清聴ありがとうございます

Documents

論文の紹介A comparative evaluation for qbh