Upload
ursala
View
51
Download
0
Embed Size (px)
DESCRIPTION
IIR 輪講復習 #8 Evaluation in information retrieval. お知らせ. たつをさんによる補足情報 http://chalow.net/clsearch.cgi?cat=IIR 復習資料おきば http://bloghackers.net/~naoya/iir/ppt/. 参考. http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント , スライドからの引用あり. 8 章のテーマ. - PowerPoint PPT Presentation
Citation preview
IIR 輪講復習#8 Evaluation in information retr
ieval
お知らせ
たつをさんによる補足情報 http://chalow.net/clsearch.cgi?cat=IIR
復習資料おきば http://bloghackers.net/~naoya/iir/ppt/
参考
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント , スライド
からの引用あり
8 章のテーマ
検索結果の妥当性評価 テストの方法 定量的な評価指標 フォーマルな指標とユーザー有用性のギャッ
プ
テストの方法
テストに必要なもの
文書のコレクション クエリ群 ( 情報ニーズ ) 適合性 (relevance) 判定の集合
r(qi, dj) = 0 or 1
情報ニーズ
適合性はクエリではなく情報ニーズと比較して評価されるべき
クエリだけでは適合かどうかは不明 「心臓発作の危険を減らすためには白ワイン
より赤ワインってほんと ? 」 → wine red white heart attack effective
∴ 人力による適合性判定データが必要
標準的なテストコレクション
Cranfield パイオニア。現在では小さすぎる
TREC NIST による Text Retrieval Conference で使われたもの。 450 の情報ニーズ、 189 万文書
GOV2 NIST による。現在研究目的に利用できる最大の Web コレクション。 2,500 万ページ
NTCIR 東アジア言語、クロス言語にフォーカス。 TREC と同程度の規模。
CLEF ヨーロッパ言語と言語横断情報検索に集中
Reuters Reuter-21578, Reuter-RCV1 。テキスト分類のために最もよく使われてきた。 RCV1 は 806,791 文書
20 Newsgroups Usenet の 20 グループの記事。テキスト分類で広く利用される。 18,941 記事。
※ 最近は Wikipedia のアーカイブも良く利用されるとか。
検索結果の評価
サマリ
ランク付けなしの検索結果の評価 基本 Precision と Recall P と R のトレードオフ指標 → F 値
ランク付けされた検索結果の評価 Presicion - Recall 曲線
補完適合率 曲線を調べる統計手法 ... 11 point interpolated average precision
→ より良い統計指標に MAP MAP では判断しづらい物 (Web 検索 etc) → Precision-top K → R-Prec
ision ほか
ROC 曲線 NDCG
情報ニーズに対する適合性の評価 kappa statistic
ランク付けなしの検索結果の評価
Precision と Recall
Precision ... 適合率 Recall ... 再現率
Precision
検索結果にゴミが入ってない率
Recall
検索して適合した文書を適合文書全体からどれだけ拾えたか率
比喩
チョコと酢昆布をまとめて取れるクレーンゲームでチョコが欲しい !
Precision ... 取って来たものがチョコばかりだったら嬉しい 「酢昆布とかいらねーし」
Recall ... ゲーム台にあるチョコ全部取れたら嬉しい 「チョコ全部欲しいし」
チョコ ... relevant な検索結果 酢昆布 ... non-relevant な検索結果
分割表と P, R
Accuracy は適切でない
情報ニーズに対して 99% が non relevant 全部 non relevant にすると Accuracy が高くなってしまう
Precision と Recall のトレードオフ
全ドキュメントを返すと R = 1 ゲーム台にあるの全部の景品を取る ... チョ
コは全部手に入る。「チョコ全部欲しいし」→ OK!
「酢昆布いらねーし」な人は超不満 Precision → 0
F 値 (F measure)
P と R のトレードオフの指標 加重調和平均
αは P と R の重み P も R も同価値なら α = 0.5 → β = 1
F 値考察
P ≦ 1, R ≦ 1 → F ≦ 1
なぜ調和平均 ? 相加平均は不適切 ... R か P を 100% にす
るとどんなに極端でも 50% は稼げてしまう 調和平均なら ok 。トレードオフを表現する
のに適切。
Recall 70% での各指標グラフ
ランク付けありの検索結果の評価
ランクありの検索結果
Precision, Recall, F 値は集合ベースの方法 → ランクありでは拡張する必要あり
検索された文書の集合 = top K の検索結果
Precision - Recall 曲線
top K に対する Precision - Recall 曲線
Interpolated Precision (Pinterp)
11 point interpolated average precision
recall を 0.0 → 1.0 まで 0.1 刻み 情報ニーズごとに、各 recall level の Pint
erp の平均
8.2 → 11point... の結果グラフ
※ グラフを見て妙な特異点がないかなどを調査する
MAP
Mean Average Precision 複数の情報ニーズへの評価を一つの値にまとめる指標
"Average precision" を各情報ニーズに付いて算出 → それを全情報ニーズについて平均したもの
MAP式
Q 情報ニーズの集合 mj 適合文書の数 R set of ranked retrieval results
MAP の特徴
適合文書が全くない = 0 一つの情報ニーズに対して Average Preci
sion は Precision - Recall 曲線に近似 MAP は Precision - Recall 曲線の平均エ
リアを表現する IR システム毎に MAP を求めて比較する
MAP で判断できないケース
MAP は全 recall level に渡る指標 Web 検索では top 10 から 30 の preci
sion が重要 → precision at K, R-Precision
R-Precision
set of relevant document of size ... |Rel| として top Rel 個の Precision を調べる。Precision at K より○
完璧なシステムでは ... 例 : 100 ドキュメントに 8 つの適合文書、
検索結果 top 20 完璧なシステムなら r = 8 Precision at K ... r / K → 8 / 20 = 0.4 R-Precision ... |Rel| = 8 → r / |Rel| = 8/8 = 1
R-Precision の考察
R-Precision は precision - recall 曲線に渡る有効性ではない → あくまで曲線の一点
曲線の最高点 → F 値 R-Precision は損益分岐点
P = R = r / |Rel|
その他の指標
ROC 曲線
縦軸を recall 、横軸を false-positive 率 ( fp / (fp + tn) ) ... " 見えたゴミ率 "
ゴミが見えるのをどの程度許容できたら recall が上がるか
NDCG
"marginal" な適合性判断を加味した指標 機械学習による適合性判断をした場合な
どに使われる
情報ニーズに対する適合性の評価
適合性の評価
そもそも適合とは 主観的な判断 そのテストデータが真に適合かどうか →
統計指標でその品質を算出
kappa 統計
社会学 判断の一致率 カテゴリの判断のために設計された " 偶然の一致 " を補正する統計指標
Kappa = P(A) – P(E) / 1 – P(E) 0 ... 偶然の一致 1 ... 完全に一致
Kappa Measure: Example (from lecture08...ppt)
Number of docs
Judge 1 Judge 2
300 Relevant Relevant
70 Nonrelevant Nonrelevant
20 Relevant Nonrelevant
10 Nonrelevant relevant
Kappa Example (from lecture08...ppt)
P(A) = 370/400 = 0.925 P(nonrelevant) = (10+20+70+70)/800 = 0.2125 P(relevant) = (10+20+300+300)/800 = 0.7878 P(E) = 0.2125^2 + 0.7878^2 = 0.665 Kappa = (0.925 – 0.665)/(1-0.665) = 0.776
Kappa > 0.8 = good agreement 0.67 < Kappa < 0.8 -> “tentative conclusions”
(Carletta ’96) Depends on purpose of study For >2 judges: average pairwise kappas
8 章 その他の話題 ( 読み物的 )
検索結果のフォーマルな指標以外に、ユーザーが快適度を判断する軸
検索スピード、ユーザビリティ、 etc 二値判断でなく "marginal" な判断をどう加味する
か
定量的な評価 vs 人間の主観による評価 A/B testing
Snnipets 静的 / 動的