41
IIR 輪輪輪輪 #8 Evaluation in inform ation retrieval

IIR 輪講復習 #8 Evaluation in information retrieval

  • Upload
    ursala

  • View
    51

  • Download
    0

Embed Size (px)

DESCRIPTION

IIR 輪講復習 #8 Evaluation in information retrieval. お知らせ. たつをさんによる補足情報 http://chalow.net/clsearch.cgi?cat=IIR 復習資料おきば http://bloghackers.net/~naoya/iir/ppt/. 参考. http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント , スライドからの引用あり. 8 章のテーマ. - PowerPoint PPT Presentation

Citation preview

Page 1: IIR 輪講復習 #8 Evaluation in information retrieval

IIR 輪講復習#8 Evaluation in information retr

ieval

Page 2: IIR 輪講復習 #8 Evaluation in information retrieval

お知らせ

たつをさんによる補足情報 http://chalow.net/clsearch.cgi?cat=IIR

復習資料おきば http://bloghackers.net/~naoya/iir/ppt/

Page 3: IIR 輪講復習 #8 Evaluation in information retrieval

参考

http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント , スライド

からの引用あり

Page 4: IIR 輪講復習 #8 Evaluation in information retrieval

8 章のテーマ

検索結果の妥当性評価 テストの方法 定量的な評価指標 フォーマルな指標とユーザー有用性のギャッ

Page 5: IIR 輪講復習 #8 Evaluation in information retrieval

テストの方法

Page 6: IIR 輪講復習 #8 Evaluation in information retrieval

テストに必要なもの

文書のコレクション クエリ群 ( 情報ニーズ ) 適合性 (relevance) 判定の集合

r(qi, dj) = 0 or 1

Page 7: IIR 輪講復習 #8 Evaluation in information retrieval

情報ニーズ

適合性はクエリではなく情報ニーズと比較して評価されるべき

クエリだけでは適合かどうかは不明 「心臓発作の危険を減らすためには白ワイン

より赤ワインってほんと ? 」 → wine red white heart attack effective

∴ 人力による適合性判定データが必要

Page 8: IIR 輪講復習 #8 Evaluation in information retrieval

標準的なテストコレクション

Cranfield パイオニア。現在では小さすぎる

TREC NIST による Text Retrieval Conference で使われたもの。 450 の情報ニーズ、 189 万文書

GOV2 NIST による。現在研究目的に利用できる最大の Web コレクション。 2,500 万ページ

NTCIR 東アジア言語、クロス言語にフォーカス。 TREC と同程度の規模。

CLEF ヨーロッパ言語と言語横断情報検索に集中

Reuters Reuter-21578, Reuter-RCV1 。テキスト分類のために最もよく使われてきた。 RCV1 は 806,791 文書

20 Newsgroups Usenet の 20 グループの記事。テキスト分類で広く利用される。 18,941 記事。

※ 最近は Wikipedia のアーカイブも良く利用されるとか。

Page 9: IIR 輪講復習 #8 Evaluation in information retrieval

検索結果の評価

Page 10: IIR 輪講復習 #8 Evaluation in information retrieval

サマリ

ランク付けなしの検索結果の評価 基本 Precision と Recall P と R のトレードオフ指標 → F 値

ランク付けされた検索結果の評価 Presicion - Recall 曲線

補完適合率 曲線を調べる統計手法 ... 11 point interpolated average precision

→ より良い統計指標に MAP MAP では判断しづらい物 (Web 検索 etc) → Precision-top K → R-Prec

ision ほか

ROC 曲線 NDCG

情報ニーズに対する適合性の評価 kappa statistic

Page 11: IIR 輪講復習 #8 Evaluation in information retrieval

ランク付けなしの検索結果の評価

Page 12: IIR 輪講復習 #8 Evaluation in information retrieval

Precision と Recall

Precision ... 適合率 Recall ... 再現率

Page 13: IIR 輪講復習 #8 Evaluation in information retrieval

Precision

検索結果にゴミが入ってない率

Page 14: IIR 輪講復習 #8 Evaluation in information retrieval

Recall

検索して適合した文書を適合文書全体からどれだけ拾えたか率

Page 15: IIR 輪講復習 #8 Evaluation in information retrieval

比喩

チョコと酢昆布をまとめて取れるクレーンゲームでチョコが欲しい !

Precision ... 取って来たものがチョコばかりだったら嬉しい 「酢昆布とかいらねーし」

Recall ... ゲーム台にあるチョコ全部取れたら嬉しい 「チョコ全部欲しいし」

チョコ ... relevant な検索結果 酢昆布 ... non-relevant な検索結果

Page 16: IIR 輪講復習 #8 Evaluation in information retrieval

分割表と P, R

Page 17: IIR 輪講復習 #8 Evaluation in information retrieval

Accuracy は適切でない

情報ニーズに対して 99% が non relevant 全部 non relevant にすると Accuracy が高くなってしまう

Page 18: IIR 輪講復習 #8 Evaluation in information retrieval

Precision と Recall のトレードオフ

全ドキュメントを返すと R = 1 ゲーム台にあるの全部の景品を取る ... チョ

コは全部手に入る。「チョコ全部欲しいし」→ OK!

「酢昆布いらねーし」な人は超不満 Precision → 0

Page 19: IIR 輪講復習 #8 Evaluation in information retrieval

F 値 (F measure)

P と R のトレードオフの指標 加重調和平均

αは P と R の重み P も R も同価値なら α = 0.5 → β = 1

Page 20: IIR 輪講復習 #8 Evaluation in information retrieval

F 値考察

P ≦ 1, R ≦ 1 → F ≦ 1

なぜ調和平均 ? 相加平均は不適切 ... R か P を 100% にす

るとどんなに極端でも 50% は稼げてしまう 調和平均なら ok 。トレードオフを表現する

のに適切。

Page 21: IIR 輪講復習 #8 Evaluation in information retrieval

Recall 70% での各指標グラフ

Page 22: IIR 輪講復習 #8 Evaluation in information retrieval

ランク付けありの検索結果の評価

Page 23: IIR 輪講復習 #8 Evaluation in information retrieval

ランクありの検索結果

Precision, Recall, F 値は集合ベースの方法 → ランクありでは拡張する必要あり

検索された文書の集合 = top K の検索結果

Page 24: IIR 輪講復習 #8 Evaluation in information retrieval

Precision - Recall 曲線

top K に対する Precision - Recall 曲線

Interpolated Precision (Pinterp)

Page 25: IIR 輪講復習 #8 Evaluation in information retrieval

11 point interpolated average precision

recall を 0.0 → 1.0 まで 0.1 刻み 情報ニーズごとに、各 recall level の Pint

erp の平均

Page 26: IIR 輪講復習 #8 Evaluation in information retrieval

8.2 → 11point... の結果グラフ

※ グラフを見て妙な特異点がないかなどを調査する

Page 27: IIR 輪講復習 #8 Evaluation in information retrieval

MAP

Mean Average Precision 複数の情報ニーズへの評価を一つの値にまとめる指標

"Average precision" を各情報ニーズに付いて算出 → それを全情報ニーズについて平均したもの

Page 28: IIR 輪講復習 #8 Evaluation in information retrieval

MAP式

Q 情報ニーズの集合 mj 適合文書の数 R set of ranked retrieval results

Page 29: IIR 輪講復習 #8 Evaluation in information retrieval

MAP の特徴

適合文書が全くない = 0 一つの情報ニーズに対して Average Preci

sion は Precision - Recall 曲線に近似 MAP は Precision - Recall 曲線の平均エ

リアを表現する IR システム毎に MAP を求めて比較する

Page 30: IIR 輪講復習 #8 Evaluation in information retrieval

MAP で判断できないケース

MAP は全 recall level に渡る指標 Web 検索では top 10 から 30 の preci

sion が重要 → precision at K, R-Precision

Page 31: IIR 輪講復習 #8 Evaluation in information retrieval

R-Precision

set of relevant document of size ... |Rel| として top Rel 個の Precision を調べる。Precision at K より○

完璧なシステムでは ... 例 : 100 ドキュメントに 8 つの適合文書、

検索結果 top 20 完璧なシステムなら r = 8 Precision at K ... r / K → 8 / 20 = 0.4 R-Precision ... |Rel| = 8 → r / |Rel| = 8/8 = 1

Page 32: IIR 輪講復習 #8 Evaluation in information retrieval

R-Precision の考察

R-Precision は precision - recall 曲線に渡る有効性ではない → あくまで曲線の一点

曲線の最高点 → F 値 R-Precision は損益分岐点

P = R = r / |Rel|

Page 33: IIR 輪講復習 #8 Evaluation in information retrieval

その他の指標

Page 34: IIR 輪講復習 #8 Evaluation in information retrieval

ROC 曲線

縦軸を recall 、横軸を false-positive 率 ( fp / (fp + tn) ) ... " 見えたゴミ率 "

ゴミが見えるのをどの程度許容できたら recall が上がるか

Page 35: IIR 輪講復習 #8 Evaluation in information retrieval

NDCG

"marginal" な適合性判断を加味した指標 機械学習による適合性判断をした場合な

どに使われる

Page 36: IIR 輪講復習 #8 Evaluation in information retrieval

情報ニーズに対する適合性の評価

Page 37: IIR 輪講復習 #8 Evaluation in information retrieval

適合性の評価

そもそも適合とは 主観的な判断 そのテストデータが真に適合かどうか →

統計指標でその品質を算出

Page 38: IIR 輪講復習 #8 Evaluation in information retrieval

kappa 統計

社会学 判断の一致率 カテゴリの判断のために設計された " 偶然の一致 " を補正する統計指標

Kappa = P(A) – P(E) / 1 – P(E) 0 ... 偶然の一致 1 ... 完全に一致

Page 39: IIR 輪講復習 #8 Evaluation in information retrieval

Kappa Measure: Example (from lecture08...ppt)

Number of docs

Judge 1 Judge 2

300 Relevant Relevant

70 Nonrelevant Nonrelevant

20 Relevant Nonrelevant

10 Nonrelevant relevant

Page 40: IIR 輪講復習 #8 Evaluation in information retrieval

Kappa Example (from lecture08...ppt)

P(A) = 370/400 = 0.925 P(nonrelevant) = (10+20+70+70)/800 = 0.2125 P(relevant) = (10+20+300+300)/800 = 0.7878 P(E) = 0.2125^2 + 0.7878^2 = 0.665 Kappa = (0.925 – 0.665)/(1-0.665) = 0.776

Kappa > 0.8 = good agreement 0.67 < Kappa < 0.8 -> “tentative conclusions”

(Carletta ’96) Depends on purpose of study For >2 judges: average pairwise kappas

Page 41: IIR 輪講復習 #8 Evaluation in information retrieval

8 章 その他の話題 ( 読み物的 )

検索結果のフォーマルな指標以外に、ユーザーが快適度を判断する軸

検索スピード、ユーザビリティ、 etc 二値判断でなく "marginal" な判断をどう加味する

定量的な評価 vs 人間の主観による評価 A/B testing

Snnipets 静的 / 動的