IIR 輪講復習 #8 Evaluation in information retrieval

IIR 輪講復習#8 Evaluation in information retr

ieval

お知らせ

たつをさんによる補足情報 http://chalow.net/clsearch.cgi?cat=IIR

復習資料おきば http://bloghackers.net/~naoya/iir/ppt/

参考

http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

本資料は書籍の輪読会に向けたサマリ本資料内で一部上記ドキュメント , スライド

からの引用あり

8 章のテーマ

検索結果の妥当性評価テストの方法定量的な評価指標フォーマルな指標とユーザー有用性のギャッ

プ

テストの方法

テストに必要なもの

文書のコレクションクエリ群 ( 情報ニーズ ) 適合性 (relevance) 判定の集合

r(qi, dj) = 0 or 1

情報ニーズ

適合性はクエリではなく情報ニーズと比較して評価されるべき

クエリだけでは適合かどうかは不明「心臓発作の危険を減らすためには白ワイン

より赤ワインってほんと ? 」 → wine red white heart attack effective

∴ 人力による適合性判定データが必要

標準的なテストコレクション

Cranfield パイオニア。現在では小さすぎる

TREC NIST による Text Retrieval Conference で使われたもの。 450 の情報ニーズ、 189 万文書

GOV2 NIST による。現在研究目的に利用できる最大の Web コレクション。 2,500 万ページ

NTCIR 東アジア言語、クロス言語にフォーカス。 TREC と同程度の規模。

CLEF ヨーロッパ言語と言語横断情報検索に集中

Reuters Reuter-21578, Reuter-RCV1 。テキスト分類のために最もよく使われてきた。 RCV1 は 806,791 文書

20 Newsgroups Usenet の 20 グループの記事。テキスト分類で広く利用される。 18,941 記事。

※ 最近は Wikipedia のアーカイブも良く利用されるとか。

検索結果の評価

サマリ

ランク付けなしの検索結果の評価基本 Precision と Recall P と R のトレードオフ指標 → F 値

ランク付けされた検索結果の評価 Presicion - Recall 曲線

補完適合率曲線を調べる統計手法 ... 11 point interpolated average precision

→ より良い統計指標に MAP MAP では判断しづらい物 (Web 検索 etc) → Precision-top K → R-Prec

ision ほか

ROC 曲線 NDCG

情報ニーズに対する適合性の評価 kappa statistic

ランク付けなしの検索結果の評価

Precision と Recall

Precision ... 適合率 Recall ... 再現率

Precision

検索結果にゴミが入ってない率

Recall

検索して適合した文書を適合文書全体からどれだけ拾えたか率

比喩

チョコと酢昆布をまとめて取れるクレーンゲームでチョコが欲しい !

Precision ... 取って来たものがチョコばかりだったら嬉しい「酢昆布とかいらねーし」

Recall ... ゲーム台にあるチョコ全部取れたら嬉しい「チョコ全部欲しいし」

チョコ ... relevant な検索結果酢昆布 ... non-relevant な検索結果

分割表と P, R

Accuracy は適切でない

情報ニーズに対して 99% が non relevant 全部 non relevant にすると Accuracy が高くなってしまう

Precision と Recall のトレードオフ

全ドキュメントを返すと R = 1 ゲーム台にあるの全部の景品を取る ... チョ

コは全部手に入る。「チョコ全部欲しいし」→ OK!

「酢昆布いらねーし」な人は超不満 Precision → 0

F 値 (F measure)

P と R のトレードオフの指標加重調和平均

αは P と R の重み P も R も同価値なら α = 0.5 → β = 1

F 値考察

P ≦ 1, R ≦ 1 → F ≦ 1

なぜ調和平均 ? 相加平均は不適切 ... R か P を 100% にす

るとどんなに極端でも 50% は稼げてしまう調和平均なら ok 。トレードオフを表現する

のに適切。

Recall 70% での各指標グラフ

ランク付けありの検索結果の評価

ランクありの検索結果

Precision, Recall, F 値は集合ベースの方法 → ランクありでは拡張する必要あり

検索された文書の集合 = top K の検索結果

Precision - Recall 曲線

top K に対する Precision - Recall 曲線

Interpolated Precision (Pinterp)

11 point interpolated average precision

recall を 0.0 → 1.0 まで 0.1 刻み情報ニーズごとに、各 recall level の Pint

erp の平均

8.2 → 11point... の結果グラフ

※ グラフを見て妙な特異点がないかなどを調査する

MAP

Mean Average Precision 複数の情報ニーズへの評価を一つの値にまとめる指標

"Average precision" を各情報ニーズに付いて算出 → それを全情報ニーズについて平均したもの

MAP式

Q 情報ニーズの集合 mj 適合文書の数 R set of ranked retrieval results

MAP の特徴

適合文書が全くない = 0 一つの情報ニーズに対して Average Preci

sion は Precision - Recall 曲線に近似 MAP は Precision - Recall 曲線の平均エ

リアを表現する IR システム毎に MAP を求めて比較する

MAP で判断できないケース

MAP は全 recall level に渡る指標 Web 検索では top 10 から 30 の preci

sion が重要 → precision at K, R-Precision

R-Precision

set of relevant document of size ... |Rel| として top Rel 個の Precision を調べる。Precision at K より○

完璧なシステムでは ... 例 : 100 ドキュメントに 8 つの適合文書、

検索結果 top 20 完璧なシステムなら r = 8 Precision at K ... r / K → 8 / 20 = 0.4 R-Precision ... |Rel| = 8 → r / |Rel| = 8/8 = 1

R-Precision の考察

R-Precision は precision - recall 曲線に渡る有効性ではない → あくまで曲線の一点

曲線の最高点 → F 値 R-Precision は損益分岐点

P = R = r / |Rel|

その他の指標

ROC 曲線

縦軸を recall 、横軸を false-positive 率 ( fp / (fp + tn) ) ... " 見えたゴミ率 "

ゴミが見えるのをどの程度許容できたら recall が上がるか

NDCG

"marginal" な適合性判断を加味した指標機械学習による適合性判断をした場合な

どに使われる

情報ニーズに対する適合性の評価

適合性の評価

そもそも適合とは主観的な判断そのテストデータが真に適合かどうか →

統計指標でその品質を算出

kappa 統計

社会学判断の一致率カテゴリの判断のために設計された " 偶然の一致 " を補正する統計指標

Kappa = P(A) – P(E) / 1 – P(E) 0 ... 偶然の一致 1 ... 完全に一致

Kappa Measure: Example (from lecture08...ppt)

Number of docs

Judge 1 Judge 2

300 Relevant Relevant

70 Nonrelevant Nonrelevant

20 Relevant Nonrelevant

10 Nonrelevant relevant

Kappa Example (from lecture08...ppt)

P(A) = 370/400 = 0.925 P(nonrelevant) = (10+20+70+70)/800 = 0.2125 P(relevant) = (10+20+300+300)/800 = 0.7878 P(E) = 0.2125^2 + 0.7878^2 = 0.665 Kappa = (0.925 – 0.665)/(1-0.665) = 0.776

Kappa > 0.8 = good agreement 0.67 < Kappa < 0.8 -> “tentative conclusions”

(Carletta ’96) Depends on purpose of study For >2 judges: average pairwise kappas

8 章その他の話題 ( 読み物的 )

検索結果のフォーマルな指標以外に、ユーザーが快適度を判断する軸

検索スピード、ユーザビリティ、 etc 二値判断でなく "marginal" な判断をどう加味する

か

定量的な評価 vs 人間の主観による評価 A/B testing

Snnipets 静的 / 動的

Documents

IIR 輪講復習 #8 Evaluation in information retrieval