Session 5: Web Search and Crowdsourcing...Web Search and Crowdsourcing Comprehensive and Reliable Crowd Assessment Algorithms Manas Joglekar (Stanford University), Hector Garcia-Molina

Session 5:

Web Search and Crowdsourcing

担当：大島・山本岳・加藤（京大）

【ICDE2015勉強会】

Web Search and Crowdsourcing

Comprehensive and Reliable Crowd Assessment Algorithms Manas Joglekar (Stanford University), Hector Garcia-Molina (Stanford

University), Aditya Parameswaran (University of Illinois at Urbana-Champauign)

Entity Resolution with Crowd Errors Vasilis Verroios, Hector Garcia-Molina (Stanford University)

Result Selection and Summarization for Web Table Search Nguyen Thanh Tam (École Polytechnique Fédérale de Lausanne), Nguyen Quoc

Viet Hung (École Polytechnique Fédérale de Lausanne), Matthias Weidlich(Imperial College London), Karl Aberer (École Polytechnique Fédérale de Lausanne)

2

図表は論文より引用

Session 5: Web Search and Crowdsourcing 担当：大島・山本岳・加藤（京大）

Comprehensive and Reliable Crowd Assessment Algorithms

クラウドワーカーの評価アルゴリズムの提案

取り組む問題：「現実的である」

ワーカーの数は問わない

全部のタスクはやらないかも

Y/N質問ばかりじゃない（→k個の選択肢の質問）

正解が何かわからない

求めるもの（𝒊さん）：推定誤り率 𝒑𝒊 と信頼区間 𝝐𝒊3

M. Joglekar, H. Garcia-Molina (Stanford), A. Parameswaran (UIUC)

3タスク中1個ミス

30タスク中10個ミス

どっち雇おう？誤り率は両方

1/3か…

確かにダメまだわからん

KDD2013の自分たちの論文をけちょんけちょんにけなしている


4

Comprehensive and Reliable Crowd Assessment Algorithms 仮定：悪意を持ったワーカーはいない

例：Y/N質問の場合誤り率 𝑝𝑖 > 0.5

手法の直感的な説明

ワーカー3人、Y/N質問の場合の誤り率の推定

1. 一致率 𝑞𝑖,𝑗 を計算する

1さんと2さんは50問中40問一致： 𝑞𝑖,𝑗 = 4/5

2. 𝑞𝑖,𝑗 = 𝑝𝑖𝑝𝑗 + (1 − 𝑝𝑖)(1 − 𝑝𝑗)

3. これを解いて 𝑝𝑖 が推定できる

𝑝1 =1

2−1

2

(2𝑞1,2 − 1)(2𝑞1,3 − 1)

2𝑞2,3 − 1

他の人の回答と一致率が高かったら誤り率低い

正解で一致不正解で一致


信頼区間の取得

1. 𝑄𝑖,𝑗 を 𝑞𝑖,𝑗 に対応する確率変数とする

2. 𝑄𝑖,𝑗 の組に対する共分散を求める

Cov 𝑄𝑖,𝑗 , 𝑄𝑗,𝑘 =𝑝𝑗(1 − 𝑝𝑗)(2𝑞𝑖,𝑘 − 1)

𝑛

3. 微分可能な関数 𝑓 を考える

𝑓 𝑞𝑖,𝑗 , 𝑞𝑖,𝑘 , 𝑞𝑗,𝑘 =1

2−1

2

(2𝑞𝑖,𝑗 − 1)(2𝑞𝑖,𝑘 − 1)

2𝑞𝑗,𝑘 − 1

先ほど…

4. 関数 𝑓 を 𝑞𝑖,𝑗 , 𝑞𝑖,𝑘 , 𝑞𝑗,𝑘 それぞれで偏微分

5. これらを使ってごにゃごにゃするとなんと

𝒑𝒊 の信頼区間が求められるのでした

5


𝑝1 =1

2−1

2

(2𝑞1,2 − 1)(2𝑞1,3 − 1)

2𝑞2,3 − 1


回答がない場合→大丈夫

3人以上に拡張

𝑛2の3人組を作って考える

各組の結果をなんか最適化しながら統合

3選択以上の問題に拡張→すごく頑張った

実験：設定した信頼水準に沿った結果

6


Y/N質問（人工データ） Y/N質問（リアルデータ）


Entity Resolution with Crowd ErrorsVasilis Verroios, Hector Garcia-Molina (Stanford University)

7 Session 5: Web Search and Crowdsourcing 担当：大島・山本岳・加藤（京大）

Entity Resolution与えられたアイテム集合を同一のエンティティごとに分割（クラスタリング）したい

C1 C2

Entity Resolution with Crowd Errors

8

研究の前提• worker はペアワイズな評価をする• worker は一定確率で間違う

- 既存研究は，workerは常に正しいという前提

YES

p=0.8

YES

p=0.8

YES

p=0.8

YES○

NO○

2人は同一人物？


扱う問題

Maximum Likelihood Clustering

workerによる評価情報 E の基でのもっともらしい分割 Cを求めたい

最尤推定に基づくアルゴリズム

尤度を最大化するような分割Cを発見

Next Single Question

次にどのペアを評価してもらえれば効果的か？

できる限り少ない評価数で，高い精度を得たい

尤度の期待値が最も高くなるようなペアを評価してもらえば良い

9

?

?

P(E |C)

※著者らの既存研究[SIGMOD2012]と問題設定が類似 ←最大値を持つエンティティを求める


提案手法: bDENSE Algorithm

Next Single Questionの選択方法

できる限り結びつきの弱い集合間の要素を worker に評価してもらえば良い

実験結果

10

提案手法

スポーツ選手画像体操選手画像（スポーツ選手画像に

比べて難しい）

人が見ても判断困難な画像集合は提案手法でも無理

?


Result Selection and Summarization for Web Table Search

Nguyen Thanh Tam, Nguyen Quoc Viet Hung, Matthias Weidlich, Karl Aberer

背景

県名人口幸福度

福井 80万 7.23

高知 76万 5

石川 120万 6.90

県名人口米生産

東京 1300万 0.6

神奈川 900万 16

大阪 890万 28

県名人の数お米

東京 1300万 0.6

大阪 890万 28

神奈川 900万 16

県名茶みかん

静岡 144千 813千

鹿児島 123千 5千

三重 33千 20千

Web上に10億以上の表が存在→検索したい都道府県

問題：多様性の欠乏


福井 80万 7.23

高知 76万 5

富山 110万 7.20


東京 1300万 0.6

神奈川 900万 16

大阪 890万 28

県名茶みかん

静岡 144千 813千

鹿児島 123千 5千

三重 33千 20千

適合性でランキングすると重複する場合が都道府県


東京 1300万 0.6

大阪 890万 28

神奈川 900万 16

1位 2位

3位 4位

問題：表のスニペット生成


福井 80万 7.23

高知 76万 5

石川 120万 6.90


東京 1300万 0.6

神奈川 900万 16

大阪 890万 28

スニペットとして見せるタプルの代表性・規則性都道府県

1位 2位

秋田 110万 529

山形 120万 415

↑似たタプルが隣接しない

低規則性↑一部の偏ったタプルのみ

低代表性他のタプル

取り組んだ問題

表検索における検索結果多様化

– 方針：（表の適合性）＋（表間の非類似度）最大化

– 解法：NPMSGG

表検索におけるスニペット生成

– 方針：（隣接タプルの類似度）と

（全非選択タプルと選択タプル間の最大類似度の和）

の最大化

– 解法：ヒューリスティック！


表検索における検索結果多様化

表の列に関する最大化問題 → NP完全


福井 80万 7.23

高知 76万 5

富山 110万 7.20


東京 1300万 0.6

神奈川 900万 16

大阪 890万 28


東京 1300万 0.6

大阪 890万 28

神奈川 900万 16

𝑓 𝑇1, … , 𝑇𝑛 = 適合度の総和 – 全表間の類似度の和

0.8 0.7 0.6

適合度（適当に計算）

各表間の類似度

＝属性集合間の編集距離など＋タプルのbag-of-words類似度


NPMSGGによる表検索における検索結果多様化

NPMSGGをする– ある集合にさらに要素を加えたときに

集合関数を最大化する要素をその集合に加えていく


東京 1300万 0.6

神奈川 900万 16

大阪 890万 28


東京 1300万 0.6

大阪 890万 28

神奈川 900万 16

𝑓 = 0.2


東京 1300万 0.6

大阪 890万 28

神奈川 900万 16

𝑓 = 0.4県名人口米生産

東京 1300万 0.6

神奈川 900万 16

大阪 890万 28


東京 1300万 0.6

大阪 890万 28

神奈川 900万 16

𝑓 = 0.6

T1

T1

T1

T2

T3

初期状態

試しに1つ要素を増やす

最大にする要素を採用県名人口米生産

東京 1300万 0.6

神奈川 900万 16

大阪 890万 28


東京 1300万 0.6

大阪 890万 28

神奈川 900万 16T1 T3


これだけ覚えればいい！頻出パターン

NP-hard (-complete)

Monotonicity

Submodularity

Greedy

Guarantee of 1-1/e

NPMSGG集合関数の最大化がNP完全と示す

集合関数の単調増加性を示す

集合関数の劣モジュラ性を示す

集合に対して1つずつ、追加したときに集合関数を最大化する要素を追加していけばある程度（=1-1/e）最適性が保証


表検索におけるスニペット生成

タプル集合に対する最大化問題→NP完全


東京 1300万 0.6

神奈川 900万 16

秋田 110万 529

山形 120万 415

スニペットとして選ばれていないタプル 𝑆

最適性に関して何の保証もないヒューリスティック解法なので説明省略

スニペットとして選ばれたタプル𝑆

𝑔 (𝑡1, … , 𝑡𝑛) =

𝑡∈ 𝑆

(1 − max𝑠∈𝑆

𝑠𝑖𝑚(𝑡, 𝑠))

非選択タプルと選択タプル間の最大類似度

bag-of-words類似度

要は選ばれていないタプルに似たタプルをできるだけ含める方針

実験結果

ベースライン（クラスタリングベースの検索結果多様化とランダムスニペット生成）との比較

多様化のベースラインからの改善度スニペット生成

ユーザの主観評価

Good! Good!

Good!

IR系の検索結果多様化方法を安易に輸出した論文だなぁと思いました

Documents

Session 5: Web Search and Crowdsourcing...Web Search and Crowdsourcing Comprehensive and Reliable Crowd Assessment Algorithms Manas Joglekar (Stanford University), Hector Garcia-Molina