Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Session 5:
Web Search and Crowdsourcing
担当 :大島・山本岳・加藤(京大)
【ICDE2015勉強会】
Web Search and Crowdsourcing
Comprehensive and Reliable Crowd Assessment Algorithms Manas Joglekar (Stanford University), Hector Garcia-Molina (Stanford
University), Aditya Parameswaran (University of Illinois at Urbana-Champauign)
Entity Resolution with Crowd Errors Vasilis Verroios, Hector Garcia-Molina (Stanford University)
Result Selection and Summarization for Web Table Search Nguyen Thanh Tam (École Polytechnique Fédérale de Lausanne), Nguyen Quoc
Viet Hung (École Polytechnique Fédérale de Lausanne), Matthias Weidlich(Imperial College London), Karl Aberer (École Polytechnique Fédérale de Lausanne)
2
図表は論文より引用
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
Comprehensive and Reliable Crowd Assessment Algorithms
クラウドワーカーの評価アルゴリズムの提案
取り組む問題:「現実的である」
ワーカーの数は問わない
全部のタスクはやらないかも
Y/N質問ばかりじゃない(→k個の選択肢の質問)
正解が何かわからない
求めるもの(𝒊さん):推定誤り率 𝒑𝒊 と 信頼区間 𝝐𝒊3
M. Joglekar, H. Garcia-Molina (Stanford), A. Parameswaran (UIUC)
3タスク中1個ミス
30タスク中10個ミス
どっち雇おう?誤り率は両方
1/3か…
確かにダメまだわからん
KDD2013の自分たちの論文をけちょんけちょんにけなしている
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
4
Comprehensive and Reliable Crowd Assessment Algorithms 仮定:悪意を持ったワーカーはいない
例:Y/N質問の場合誤り率 𝑝𝑖 > 0.5
手法の直感的な説明
ワーカー3人、Y/N質問の場合の誤り率の推定
1. 一致率 𝑞𝑖,𝑗 を計算する
1さんと2さんは50問中40問一致: 𝑞𝑖,𝑗 = 4/5
2. 𝑞𝑖,𝑗 = 𝑝𝑖𝑝𝑗 + (1 − 𝑝𝑖)(1 − 𝑝𝑗)
3. これを解いて 𝑝𝑖 が推定できる
𝑝1 =1
2−1
2
(2𝑞1,2 − 1)(2𝑞1,3 − 1)
2𝑞2,3 − 1
他の人の回答と一致率が高かったら誤り率低い
正解で一致 不正解で一致
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
信頼区間の取得
1. 𝑄𝑖,𝑗 を 𝑞𝑖,𝑗 に対応する確率変数とする
2. 𝑄𝑖,𝑗 の組に対する共分散を求める
Cov 𝑄𝑖,𝑗 , 𝑄𝑗,𝑘 =𝑝𝑗(1 − 𝑝𝑗)(2𝑞𝑖,𝑘 − 1)
𝑛
3. 微分可能な関数 𝑓 を考える
𝑓 𝑞𝑖,𝑗 , 𝑞𝑖,𝑘 , 𝑞𝑗,𝑘 =1
2−1
2
(2𝑞𝑖,𝑗 − 1)(2𝑞𝑖,𝑘 − 1)
2𝑞𝑗,𝑘 − 1
先ほど…
4. 関数 𝑓 を 𝑞𝑖,𝑗 , 𝑞𝑖,𝑘 , 𝑞𝑗,𝑘 それぞれで偏微分
5. これらを使ってごにゃごにゃするとなんと
𝒑𝒊 の信頼区間が求められるのでした
5
Comprehensive and Reliable Crowd Assessment Algorithms
𝑝1 =1
2−1
2
(2𝑞1,2 − 1)(2𝑞1,3 − 1)
2𝑞2,3 − 1
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
回答がない場合→大丈夫
3人以上に拡張
𝑛2の3人組を作って考える
各組の結果をなんか最適化しながら統合
3選択以上の問題に拡張→すごく頑張った
実験:設定した信頼水準に沿った結果
6
Comprehensive and Reliable Crowd Assessment Algorithms
Y/N質問(人工データ) Y/N質問(リアルデータ)
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
Entity Resolution with Crowd ErrorsVasilis Verroios, Hector Garcia-Molina (Stanford University)
7 Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
Entity Resolution与えられたアイテム集合を同一のエンティティごとに分割(クラスタリング)したい
C1 C2
Entity Resolution with Crowd Errors
8
研究の前提• worker は ペアワイズな評価をする• worker は 一定確率で間違う
- 既存研究は,workerは常に正しいという前提
YES
p=0.8
YES
p=0.8
YES
p=0.8
YES○
NO○
2人は同一人物?
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
扱う問題
Maximum Likelihood Clustering
workerによる評価情報 E の基でのもっともらしい分割 Cを求めたい
最尤推定に基づくアルゴリズム
尤度 を最大化するような分割Cを発見
Next Single Question
次にどのペアを評価してもらえれば効果的か?
できる限り少ない評価数で,高い精度を得たい
尤度の期待値が最も高くなるようなペアを評価してもらえば良い
9
?
?
P(E |C)
※著者らの既存研究[SIGMOD2012]と問題設定が類似 ←最大値を持つエンティティを求める
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
提案手法: bDENSE Algorithm
Next Single Questionの選択方法
できる限り結びつきの弱い集合間の要素を worker に評価してもらえば良い
実験結果
10
提案手法
スポーツ選手画像 体操選手画像(スポーツ選手画像に
比べて難しい)
人が見ても判断困難な画像集合は提案手法でも無理
?
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
Result Selection and Summarization for Web Table Search
Nguyen Thanh Tam, Nguyen Quoc Viet Hung, Matthias Weidlich, Karl Aberer
背景
県名 人口 幸福度
福井 80万 7.23
高知 76万 5
石川 120万 6.90
県名 人口 米生産
東京 1300万 0.6
神奈川 900万 16
大阪 890万 28
県名 人の数 お米
東京 1300万 0.6
大阪 890万 28
神奈川 900万 16
県名 茶 みかん
静岡 144千 813千
鹿児島 123千 5千
三重 33千 20千
Web上に10億以上の表が存在→検索したい都道府県
問題:多様性の欠乏
県名 人口 幸福度
福井 80万 7.23
高知 76万 5
富山 110万 7.20
県名 人口 米生産
東京 1300万 0.6
神奈川 900万 16
大阪 890万 28
県名 茶 みかん
静岡 144千 813千
鹿児島 123千 5千
三重 33千 20千
適合性でランキングすると重複する場合が都道府県
県名 人の数 お米
東京 1300万 0.6
大阪 890万 28
神奈川 900万 16
1位 2位
3位 4位
問題:表のスニペット生成
県名 人口 幸福度
福井 80万 7.23
高知 76万 5
石川 120万 6.90
県名 人口 米生産
東京 1300万 0.6
神奈川 900万 16
大阪 890万 28
スニペットとして見せるタプルの代表性・規則性都道府県
1位 2位
秋田 110万 529
山形 120万 415
↑似たタプルが隣接しない
低規則性↑一部の偏ったタプルのみ
低代表性他のタプル
取り組んだ問題
表検索における検索結果多様化
– 方針:(表の適合性)+(表間の非類似度)最大化
– 解法:NPMSGG
表検索におけるスニペット生成
– 方針:(隣接タプルの類似度)と
(全非選択タプルと選択タプル間の最大類似度の和)
の最大化
– 解法:ヒューリスティック!
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
表検索における検索結果多様化
表の列に関する最大化問題 → NP完全
県名 人口 幸福度
福井 80万 7.23
高知 76万 5
富山 110万 7.20
県名 人口 米生産
東京 1300万 0.6
神奈川 900万 16
大阪 890万 28
県名 人の数 お米
東京 1300万 0.6
大阪 890万 28
神奈川 900万 16
𝑓 𝑇1, … , 𝑇𝑛 = 適合度の総和 – 全表間の類似度の和
0.8 0.7 0.6
適合度(適当に計算)
各表間の類似度
= 属性集合間の編集距離など + タプルのbag-of-words類似度
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
NPMSGGによる表検索における検索結果多様化
NPMSGGをする– ある集合にさらに要素を加えたときに
集合関数を最大化する要素をその集合に加えていく
県名 人口 米生産
東京 1300万 0.6
神奈川 900万 16
大阪 890万 28
県名 人の数 お米
東京 1300万 0.6
大阪 890万 28
神奈川 900万 16
𝑓 = 0.2
県名 人の数 お米
東京 1300万 0.6
大阪 890万 28
神奈川 900万 16
𝑓 = 0.4県名 人口 米生産
東京 1300万 0.6
神奈川 900万 16
大阪 890万 28
県名 人の数 お米
東京 1300万 0.6
大阪 890万 28
神奈川 900万 16
𝑓 = 0.6
T1
T1
T1
T2
T3
初期状態
試しに1つ要素を増やす
最大にする要素を採用県名 人口 米生産
東京 1300万 0.6
神奈川 900万 16
大阪 890万 28
県名 人の数 お米
東京 1300万 0.6
大阪 890万 28
神奈川 900万 16T1 T3
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
これだけ覚えればいい!頻出パターン
NP-hard (-complete)
Monotonicity
Submodularity
Greedy
Guarantee of 1-1/e
NPMSGG集合関数の最大化がNP完全と示す
集合関数の単調増加性を示す
集合関数の劣モジュラ性を示す
集合に対して1つずつ、追加したときに集合関数を最大化する要素を追加していけばある程度(=1-1/e)最適性が保証
Session 5: Web Search and Crowdsourcing 担当 :大島・山本岳・加藤(京大)
表検索におけるスニペット生成
タプル集合に対する最大化問題→NP完全
県名 人口 米生産
東京 1300万 0.6
神奈川 900万 16
秋田 110万 529
山形 120万 415
スニペットとして選ばれていないタプル 𝑆
最適性に関して何の保証もないヒューリスティック解法なので説明省略
スニペットとして選ばれたタプル𝑆
𝑔 (𝑡1, … , 𝑡𝑛) =
𝑡∈ 𝑆
(1 − max𝑠∈𝑆
𝑠𝑖𝑚(𝑡, 𝑠))
非選択タプルと選択タプル間の最大類似度
bag-of-words類似度
要は選ばれていないタプルに似たタプルをできるだけ含める方針
実験結果
ベースライン(クラスタリングベースの検索結果多様化とランダムスニペット生成)との比較
多様化のベースラインからの改善度 スニペット生成
ユーザの主観評価
Good! Good!
Good!
IR系の検索結果多様化方法を安易に輸出した論文だなぁと思いました