Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
検索エンジン信頼性検索エンジン信頼性ーSEARCH ENGINEの「今」とその信頼性、
未来へ向けて未来へ向けてー早稲田大学 理工学術院情報理工学科 山名早人
[email protected]@waseda.jphttp://www.yama.info.waseda.ac.jp/~yamana/
2010/6
1
2010/6
WHO AM I?WHO AM I?
山名早人監訳:G l H k O ti i i W b it 等 監訳:Google Hacks, Optimizing Web site等
情報処理学会データベースシステム研究会主査
電子情報通信学会和文D論文誌編集副委員長
CACM日本語版編集委員長語版編集委員長 元IEEE Computer Society Japan Chapterチェア
2
こんな経験はありませんか?こんな経験はありませんか?
3
そして こんな経験も?そして、こんな経験も?
4
新しい「検索エンジン ?新しい「検索エンジン」?
5
AGENDAAGENDA
1. 日本における検索エンジンの歴史の規模と現状2. WEBの規模と現状
3 検索エンジンの信頼性ーランキングー3. 検索エンジンの信頼性 ランキング4. 検索エンジンの信頼性ー検索結果数ー5. 新しい検索エンジンと未来
6
1. 日本における検索エンジンの歴史
7
日本における検索エンジンの歴史(1)日本における検索エンジンの歴史(1)
日本初の検索エンジン1994.12
1995.91995.8 ~1999.3 by 早稲田大学(田村氏)
日本初の検索エンジン
NETPLAZA ~2001.1 by 日本電気1995.111995.10
1996.1
NETPLAZA 2001.1 by 日本電気~1999.11 by 富士通
~2000 5 by 日立国際ビジネス1996.11996.4
1996.10
2000.5 by 日立国際ビジネス
by NTT f 1997.3
1997.7
Open Documentary Information Navigator by 東京大学 (原田氏)
1998.101998.6 RCAAU Mo-n-do-u(問答)
by 京都大学(河野先生)
2001.12000.8
1999.11
8
2001.1
日本における検索エンジンの歴史(2)日本における検索エンジンの歴史(2)
日本初の検索エンジン1994.12
1995.91995.8
NETPLAZA ~2001.1 by 日本電気~1999.3 by 早稲田大学(田村氏)日本初の検索エンジン
1995.111995.10
1996.1
~1999.11 by 富士通~2000 5 by 日立国際ビジネス
NETPLAZA 2001.1 by 日本電気
by NTT
1996.1 2000.5 by 日立国際ビジネス1996.4
f 1996.10
Open Documentary Information Navigatby 東京大学 (原田氏)
1997.3
1997.7
RCAAU Mo-n-do-u(問答)by 京都大学(河野先生)1998.10
1998.6
2001.12000.8
1999.11
2003.10 from 2000.11 by 楽天
9
2001.1
主要な検索エンジンのバックエンド主要な検索エンジンのバックエンド Yahoo! • Infoseek Japan Yahoo!
1996.4 powered by Original 1998.5 powered by Goo
p– 1996.10 powered by Original– 2003.9 powered by Google
E it J 2001.4 powered by Google 2004.5 powered by YST
NETPLAZA /BIGLOBE (NEC)
• Excite Japan– 1997.7 powered by Original– 2002 1 powered by Google NETPLAZA /BIGLOBE (NEC)
1995.9 powered by Original 2000.11 powered by Google
2002.1 powered by Google– 百度
– 2008.1 powered by OriginalN
InfoNavi/@Nifty (Fujitsu) 1995.10 powered by Original
2001 4 d b G l
– Naver– 2009.6 powered by Original
2001.4 powered by Google Goo (NTT)
1997 3 powered by Original日本オリジナルな検索
ジ 1997.3 powered by Original 2003.12 Google
MSN
エンジンは消滅
そして、Google/Yahoo!+Bing/
10
Original 2009.5 へ
Google/Yahoo!+Bing/Baidu/NAVERの4強へ
検索エンジン創世記の学 主大学における主な研究者たち
プライバシーに配慮し削除
11
2. WEBの規模と現状
12
世界にはどのくらいのWEBペ ジが存在?世界にはどのくらいのWEBページが存在?
1997年12月:3.2億 [1] 大規模データを持つサーチエンジン間のデータの重なりから
統計的に算出統計的に算出。
1999年 2月:8億/15TB [2] 360万のIPアドレスに対して80番ポートをチェック 2500の 360万のIPアドレスに対して80番ポートをチェック。2500の
Webサーバに対して実際にWebページ収集を行い統計的に算出。 2009年 7月:1270億と推定009年 月 0億と推定
平均530ページ/サーバ(2004-2005年収集の85億ページの平均)530 ×20 695万W bサイト[3]≒1096億 530page×20,695万Webサイト[3]≒1096億
[1]S.Lawrence, C.L.Giles:"Searching the World Wide Web", Science, Vol.280, No.5360, pp.98-100 (1998)[2] S.Lawrence, C.L.Giles:"Accessibility of Information on the Web", Nature, Vol.400, pp.107-109 (1999)[3] -: Netcraft Home Page, http://www.netcraft.co.uk/
13
[ ] g , p
CUILのインデックス数CUILのインデックス数
// /http://www.cuil.com/
14
実績- WEBデータ収集実績 WEBデ タ収集04/01/19 3拠点(早大,NTT,IDC)で収集開始[30CPU]05/01/17 2拠点追加(早大,NII) [合計50CPU]05/10/21 3拠点に シン追加[合計80CPU]
04/01/19 3拠点(早大,NTT,IDC)で収集開始[30CPU]05/01/17 2拠点追加(早大,NII) [合計50CPU]05/10/21 3拠点に シン追加[合計80CPU]
ページ数
05/10/21 3拠点にマシン追加[合計80CPU]06/09/01~現在 Japaneseページの再収集開始05/10/21 3拠点にマシン追加[合計80CPU]06/09/01~現在 Japaneseページの再収集開始
120130140150
億
8090
100110120
ユニークな収集ページ数
4050607080
010203040
収集先のリアルタイム表示
0 200
4/1/
9200
4/2/
8200
4/3/
10200
4/4/
9200
4/5/
10200
4/6/
9200
4/7/
10200
4/8/
9200
4/9/
9200
4/10
/9200
4/11
/9200
4/12
/9200
5/1/
9200
5/2/
8200
5/3/
11200
5/4/
10200
5/5/
11200
5/6/
10200
5/7/
11200
5/8/
10200
5/9/
10200
5/10
/10
200
5/11
/10
200
5/12
/10
200
6/1/
10200
6/2/
9200
6/3/
12200
6/4/
11200
6/5/
12200
6/6/
11200
6/7/
12200
6/8/
11
2004年度 1 101 838 937 ペ ジを収集完了 ジ2004年度: 1,101,838,937 ページを収集完了2005年度:12,669,681,455 ぺージを収集完了2006/7末:14,456,201,906 ページを収集完了
最大3500万ページ/日を収集(平均約1000万ページ/日)
15
起点と収集方針起点と収集方針
起点約600万のWebサーバリスト約600万のWebサ バリスト
2004.1以前に我々が持つ起点リストを利用 1998-2000 分散収集実験他 1998 2000 分散収集実験他
収集方針起点から最大15ホ プ先までを収集起点から最大15ホップ先までを収集
収集間隔は1秒(順次5秒,15秒と変更)テキストのみを収集(バイナリは拡張子で排除)
2005.1以降 6時間収集5時間サスペンド降 時間収集 時間サ 2005.7以降, Webサーバへの負荷軽減対策
16
収集済WEBサ バ数収集済WEBサーバ数
発見したWEBサーバ数:13,468万台
アクセス済:8,116万台
収集済:5 548万台収集済:5,548万台
14,456,201,906ページ
アクセスできず:2,568万
台
より全
17
robots.txtにより全体がアクセス禁止:256万台
WEBペ ジのTLD分布WEBページのTLD分布
18
全WEBサ バの設置位置分布全WEBサーバの設置位置分布
19
WEBページの言語分布(107億ページ)WEBペ ジの言語分布(107億ペ ジ)
20
日本語ペ ジの占める割合が大きいTLD日本語ページの占める割合が大きいTLD
jp 日本 90.3%to トンガ 59.2%jp 日本 90.3%to トンガ 59.2%st サントメ・プリンシペ(アフリカ) 33.1%
gsサウスジョージア・サウスサンドウィッチ諸島(南アメリカの島)
29.0%
st サントメ・プリンシペ(アフリカ) 33.1%
gsサウスジョージア・サウスサンドウィッチ諸島(南アメリカの島)
29.0%サンドウィッチ諸島(南アメリカの島)
bz ベリーズ(中央アフリカ) 29.0%ac アセンション島 26.1%
サンドウィッチ諸島(南アメリカの島)bz ベリーズ(中央アフリカ) 29.0%ac アセンション島 26.1%
親日国?島
tv ツバル 23.9%sh セントヘレナ 23.1%
ココス諸島 20 0%
島tv ツバル 23.9%sh セントヘレナ 23.1%
ココス諸島 20 0%cc ココス諸島 20.0%com 18.3%coop 15.2%
cc ココス諸島 20.0%com 18.3%coop 15.2%coop 15.2%fm ミクロネシア連邦 14.2%rw ルワンダ 13.5%
全世界平均 13 00%
coop 15.2%fm ミクロネシア連邦 14.2%rw ルワンダ 13.5%
全世界平均 13 00%
21
全世界平均 13.00%全世界平均 13.00%
TVドメイン内のWEBサ バの設置位置分布TVドメイン内のWEBサーバの設置位置分布
22
JPドメインに属する約5 4億ペ ジの言語分布JPドメインに属する約5.4億ページの言語分布
23
日本語で書かれたペ ジのTLD分布日本語で書かれたページのTLD分布
24
3. 検索エンジンの信頼性ーランキングーランキング
25
Percentage of overlapped pages
検索エンジン間のランキング比較overlapped pages
Num. of Search Results
Query
26
27
検索エンジン間のランキング 致度検索エンジン間のランキング一致度
28
Sep 20 Sep 21 Sep 22 Sep 23 Sep 24 Sep 25 Sep 26 Oct 3Sep.20 Sep.21 Sep.22 Sep.23 Sep.24 Sep.25 Sep.26 Oct.3
Transition of the ranking
29
Transition of the ranking
Sep 20 Sep 21 Sep 22 Sep 23 Sep 24 Sep 25 Sep 26 Oct 3
Transition of the ranking
Sep.20 Sep.21 Sep.22 Sep.23 Sep.24 Sep.25 Sep.26 Oct.3
30
Transition of the ranking
Sep 20 Sep 21 Sep 22 Sep 23 Sep 24 Sep 25 Sep 26 Oct 3
Transition of the ranking
Sep.20 Sep.21 Sep.22 Sep.23 Sep.24 Sep.25 Sep.26 Oct.3
31
Word appearance frequency Word appearance frequency
Page CategorizationWord appearance frequency Page CategorizationWord appearance frequency
32
約10日後のランキング変動約10日後のランキング変動
33
サイトのランク変動パターン
定位置クラスタのセントロイド 上昇クラスタのセントロイド
• 上昇パターン• 定位置パターン
1
51
101キン
グ
Google下位
Yahoo! JAPAN下位
MSN下位
Google上位
1
51
101キン
グ
Google上昇1
Yahoo! JAPAN上昇1
MSN上昇1
Google上昇2
Y h ! JAPAN上昇2101
151
201
平均
ラン
キ
g 上位
Yahoo! JAPAN上位
MSN上位
Google中間
Yahoo! JAPAN中間
MSN中間
101
151
201
平均
ラン
キ Yahoo! JAPAN上昇2
MSN上昇2
Google上昇3
Yahoo! JAPAN上昇3
MSN上昇3
Yahoo! JAPAN上昇4
2007
年6月
2007
年8月
2007
年10
月20
07年
12月
2008
年2月
2008
年4月
2008
年6月
2008
年8月
2008
年10
月20
08年
12月
観測日時
2007
年6月
2007
年8月
2007
年10
月20
07年
12月
2008
年2月
2008
年4月
2008
年6月
2008
年8月
2008
年10
月20
08年
12月
観測日時
下降クラスタのセントロイド
1
• 下降パターン
51
101
151均ラ
ンキ
ング
Google下降1
Yahoo! JAPAN下降1
MSN下降1
Google下降2
Yahoo! JAPAN下降2
降
201
7年6月
7年8月
年10
月
年12
月
8年2月
8年4月
8年6月
8年8月
年10
月
年12
月
平均 MSN下降2
MSN下降3
3420
07年
2007
年20
07年
2007
年
2008
年
2008
年
2008
年
2008
年20
08年
2008
年
観測日時
サイトのランク変動パターン
上昇下降パターン0 10
50
100
キン
グ
Google上昇下降1
Google上昇下降2
Google上昇下降3
1
51
101
ンキ
ング
MSN上昇下降1
MSN上昇下降2
Google MSN100
150
200
平均
ラン
キ
下降3
Google上昇下降4
Google上昇下降5
Google上昇
151
201平均
ラン 降
MSN上昇下降3
MSN上昇下降4
250
Jun-07
Jul-07
Aug-07
Sep-07
Oct-07
Nov-07
Dec-07
Jan-08
Feb-08
Mar-08
Apr-08
May-08
Jun-08
Jul-08
Aug-08
Sep-08
Oct-08
Nov-08
Dec-08
観測時期
下降6
Google上昇下降7
Jun-07
Jul-07
Aug-07
Sep-07
Oct-07
Nov-07
Dec-07
Jan-08
Feb-08
Mar-08
Apr-08
May-08
Jun-08
Jul-08
Aug-08
Sep-08
Oct-08
Nov-08
Dec-08
観測時期
MSN上昇下降5
観測時期
0
50
Yahoo!JAPAN上昇下降1
観測時期
Yahoo! JAPAN下降上昇クラスタは出てこない50
100
150
平均
ラン
キン
グ
下降1Yahoo!JAPAN上昇下降2Yahoo!JAPAN上昇下降3Yahoo!JAPAN上昇
降
下降上昇クラスタは出てこない→ 一度落ちたら上がってこない
200
250
Jun-
Jul-
Aug-
Sep-
Oct-
Nov-
Dec-
Jan-
Feb-
Mar-
Apr-
May-
Jun-
Jul-
Aug-
Sep-
Oct-
Nov-
Dec-
下降4Yahoo!JAPAN上昇下降5Yahoo!JAPAN上昇下降6
u07
u07
g07
p07
ct07
v07
c07
a08
eb08
a08
p08
y08
u08
u08
g08
p08
ct08
v08
c08
観測時期
上位 下位クラスタの比較(サイトの生成日時)上位・下位クラスタの比較(サイトの生成日時)
年 デ タ数が少な※ 2008年はデータ数が少ないため割合小さい
下位のクラスタのほうが生成年が新しい生成年が新しい
↓古いものがランキング古いものがランキング
上位に存在し続ける傾向
36
中間 上昇 下降 上昇下降クラスタ サイト生成日時比較中間/上昇/下降/上昇下降クラスタのサイト生成日時比較
上昇クラスタは上昇クラスタは生成年が新しい傾向
↓↓ランキングが低いまま古くなると上がりにくい
※ 2008年はデータ数が少ない
37
ため割合が小さい
4. 検索エンジンの信頼性ー検索結果数ー検索結果数
38
オバマ大統領とGOOG はどちらが有名か?オバマ大統領とGOOGLEはどちらが有名か?
著作権に配慮し削除
Barack Obama39
しかし 検索結果ヒット数は変動するしかし、検索結果ヒット数は変動する…
40
検索結果ヒット数と実際に得られる数検索結果ヒット数と実際に得られる数
41
Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA
前置詞の検討(1)関連技術紹介-Googleを用いた翻訳サポートシステム Google
前置詞の検討(1)
現在製造されている自動車のほとんどはガソリンで走る
Exciteで翻訳ワイルドカード
「任意の文字」をMost cars manufactured now run with gasoline.
「任意の文字」を表す特殊文字
ん?「ガソリンで走る」っ“run * gasoline” 「ガソリンで走る」っ
て「run with gasoline」で良かっ
たっけ?
run gasolineで検索
たっけ?他に何か前置詞なかったっけ?前置詞の部分を
42
ワイルドカードに置き換えて検索
前置詞の検討(2)
関連技術紹介-Googleを用いた翻訳サポートシステム Google
前置詞の検討(2)
候補
検索結果から
候補
検索結果からrun とgasolineとの間にくる
前置詞は
run with gasoline
run on gasolineそれぞれを
フレ ズ検索・on・by
があることがわかった
run on gasoline
run by gasoline
フレーズ検索
がある とがわかった
表1:前置詞の検討
検索文字列 ヒット件数
“run on gasoline” 4,420
「on」を使った用例が圧倒的に多い
“run by gasoline” 131
“ ith li ” 50「run on gasoline」
とするのが
43
“run with gasoline” 50 とするのが一番適当である
Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA
和英辞典とGOOGLEを使 た検討(1)
関連技術紹介-Googleを用いた翻訳サポートシステム Google
和英辞典とGOOGLEを使った検討(1)
価格安定は重要な経済政策目標である
Th i t bili ti i i t t i li l
Exciteで翻訳
The price stabilization is an important economic policy goal.
「価格安定」の「安定」の単語はstabilizationでよかったっけ?
他に何か候補はないだろうか?他に何か候補はないだろうか?
「安定」 「価格安定」の候補「安定」・stabilization・stability
ilib i
「安定」を和英辞典で調べると・・・
「価格安定」の候補・price stabilization・price stability
i ilib i
44
・equilibrium ・price equilibrium
Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA
和英辞典とGOOGLEを使 た検討(2)
関連技術紹介-Googleを用いた翻訳サポートシステム Google
和英辞典とGOOGLEを使った検討(2)表4: 「価格安定」の訳語
検索文字列 ヒット件数
“price stabilization” 14,700price stabilization 14,700
“price stability” 156,000 圧倒的に件数が多い
“price equilibrium” 8,290件数が多い
「価格安定」の「安定」はstabilityとして使うのが適当
検索結果のURLを見ると、“price equilibrium”の表現を使っているドメインは「de」が多いことがわかる→非英語圏で使われていることがわかる
45
Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA
ワイルドカ ドを使 た検討の自動化
関連技術紹介-Googleを用いた翻訳サポートシステム Google
ワイルドカードを使った検討の自動化
t i twet in sweat
wet * sweat選択されたin
wet sweat
GoogleAPIで検索フレーズ全体と選択範囲
両方POST 「in」の品詞をチェック
ワイルドカードにした部分の品詞をMontyLinguaでチェック
検索結果より発見 前置詞だけの結果を取り出す
検索結果件数wet with sweat
wet from sweat
検索結果件数
3,280
274
wet in sweat
wet from sweat 274854
46
wet in sweatフレーズ検索
Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA
システムの実行画面(1)
関連技術紹介-Googleを用いた翻訳サポートシステム Google
システムの実行画面(1)
「run with gasoline」をrun with gasoline」を入力して
「with」をドラッグ選択「with」をドラッグ選択
「with」の品詞を選択 図2: ワイルドカードを使った検討の入力画面
「実行」ボタンをクリック
47
実行」ボタンをクリック
Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA
システムの実行画面(2)
関連技術紹介-Googleを用いた翻訳サポートシステム Google
システムの実行画面(2)
この一連の操作をこの 連の操作を3~4秒で実現
図3: 前置詞の検討を行った結果画面
48
図3: 前置詞の検討を行った結果画面
2つのクエリ間における2つのクエリ間における検索結果数大小関係の入れ替わり率
49
ヒット数変動
50
ヒット数変動 検索エンジンが変化する3ケースについて検証 「どうすれば信頼できるヒット数が得られるのか」を示す
ヒット数が変化する3つのケース
Case1: 「検索」ボタンを何度も押した場合Case2: 「次へ」ボタンを何度も押した場合Case2: 「次へ」ボタンを何度も押した場合Case3: 検索する日時を変えて検索を行った場合
• 本研究の意義ヒット数を利用した研究に,「信頼できるヒット数」の取得方法を提供する取得方法を提供する
実験環境実験環境 Web Search API
Crawlerキーワードを選択
Crawler
クエリを作成
並列に検索
結 整 保存結果の整理・保存
並列検索のためのクエリ
キーワードAに対して...
51
A : 1-10 A : 11-20 A : 21-30 A : 991-1000・・・
オフセット1 オフセット11 オフセット21 オフセット991
検証事項
52
検証事項
, , について検証検証
各社が提供しているAPIを経由して ヒット数を取得 各社が提供しているAPIを経由して,ヒット数を取得 検索設定は,各検索エンジンのデフォルト設定を利用
検索に使用するクエリ 2007年12月のYahoo! JAPANクエリログ(検索頻度の上位10,000件のクエリログ)
「情報爆発」[13]において提供頂いたデータ
[13] 情報爆発時代に向けた新しいIT基盤技術の研究:http://www.infoplosion.nii.ac.jp/info-plosion/
CASE1:「検索」ボタンを何度も押した場合による変動
53
CASE1: 検索」ボタンを何度も押した場合による変動
1.それぞれのクエリに対して,5分以内に100回検索を行う2 取得したヒット数から 変動係数を算出する2.取得したヒット数から,変動係数を算出する
標準偏差 分散
変動係数 グ を作成する
変動係数 cv = 標準偏差平均 平均
=分散
3.変動係数でヒストグラムを作成する
CASE1 :検証結果54
rangeFrequency
Google Bing Yahoo!cv = 0.0% 9,977 699 9,096
0.0% < cv
CASE 3:検索日時の変化によるヒット数の変動
57
CASE 3:検索日時の変化によるヒット数の変動
• 2009 10/11から 12/12の約二ヵ月間,10,000個のクエリについて毎日ヒット数を取得
{HitCount(10/11) HitCount(10/12) HitCount(12/12)}{HitCount(10/11),HitCount(10/12),…,HitCount(12/12)}
• 10/11のヒット数に対する変動率ベクトルを算出)12/12()12/10()11/10( HitCountHitCountHitCount })11/10()12/12(,...,
)11/10()12/10(,
)11/10()11/10({
HitCountHitCount
HitCountHitCount
HitCountHitCount
算出した変動率ベクトルをk m nsクラスタリング• 算出した変動率ベクトルをk-meansクラスタリング‐利用する特徴量はコサイン類似度
CASE3 :検証結果58
Googlek=4
BingBingk=5
Yahoo! Yahoo! k=3
まとめ:信頼できるヒット数とは59
まとめ 信頼できる ット数とは
次のような場合に信頼できるヒット数が得られる 次のような場合に信頼できるヒット数が得られる
検索開始オフセットの変化に伴うヒット数の変動に対し
ヒット数が恣意的に調整されておらず,かつ 検索開始オフセットが最も大きな値のときかつ,検索開始オフセットが最も大きな値のとき
時系列によるヒット数の変動が「安定期」(1週間で30%以上
時間経過に伴うヒット数の変動に対し
時系列によるヒット数の変動が「安定期」(1週間で30%以上変化しない)に入っている場合
検索エンジンの信頼性について検索エンジンの信頼性について
ユーザの立場としてできることランキングランキング
調べ物をする際には、必ず複数の検索エンジンを用いる
特にサーベイでは必須特にサ ベイでは必須
ランキングは、検索エンジン間でも大きく異なるのはもちろん、日々変動していることを念頭におくろん、 変動して る を念頭 おく
検索結果数検索結果数をもって「どちらが有名か」を判断する場合に検索結果数をもって「どちらが有名か」を判断する場合には、必ず「次へ」をクリックして、最後に表示される検索結果数を信頼する
検索結果数は日々変動しているので、できれば1週間程度の期間、調査することが望ましい。
60
5. 新しい検索エンジンと未来
61
2020年のSEARCHは?(WSDM2008)2020年のSEARCHは?(WSDM2008)
従来の検索ボックス (ソーシャル or 人間)パワーサーチ(ソ シャル 人間) ワ サ チ
Yahoo!JAPAN 知恵袋 OKWave
Machine Reading= Information Extraction + Tractable Interface
Text Runner 自然言語サーチ自然言語サ チ
セマンティックWeb
true knowledge(ケンブリッジ大学) Powerset
これを区別できますか?これを区別できますか?
Book by children Book for children Book of Book of
①TEXT RUNNER①TEXT RUNNER
大学教授
2020年はMachine
ワシントン大学教授 Oren Etzioni氏 2020年はMachine
Readingの時代 Machine Reading = Machine Reading =
Information Extraction + Tractable Interface
KnowItAllプロジェクト 1億のWebページから5 1億のWebペ ジから5億の文を抽出し利用
HUMAN READING V S MACHINE READINGHUMAN READING V.S. MACHINE READING
http://turing.cs.washington.edu/papers/SSS07EtzioniO.pdf
TEXTRUNNER SEARCHTEXTRUNNER SEARCH
パターン「Thomas Edison * invent/invented/invents *」を探す
TEXTRUNNERに関する補足TEXTRUNNERに関する補足
コーパスはセレクトされたものが重要であり、Webページをそのまま利用することはできない。
ユーザからのクエリに対してオンザフライで知識を抽出する。
事前のタグは不要であり、(arg1, relation, arg2)の関係を自動的に見つける.
推論の実現 (Turing, born in, London) (london, part of England) →
(Tuning born in England) (1,R,2) (1,R,2’)(2,R’,4),(2’,R’,4)であれば2=4と推定するる。
信頼度計算 異なる表現の分布をチェック 異なる表現の分布をチェック
②POWERSETの出力結果②POWERSETの出力結果
POWERSETPOWERSET
2008/5/11 に一般向けリリース
WikipediaとFreebaseのデータを利用
検索例1検索例1
検索例2検索例2 検索例3検索例3
検索例4検索例4 検索例5検索例5
著作権に配慮し削配慮し削
除
検索例5検索例5
著作権に配慮し削配慮し削
除
POWERSETPOWERSET
自然言語処理をしているようには思えず。
パタ を抽出し るにすぎな の は?パターンを抽出しているにすぎないのでは?
TextRunnerと似たテクニックの利用 TextRunnerと似たテクニックの利用
③TRUE KNOWLEDGE③TRUE KNOWLEDGE TRUE KNOWLEDGETRUE KNOWLEDGE
知識ベースの量が少なく、多くの質問に回答できずできず。
9907万件のfacts件
④GOOGLE: JEFFREY DEAN氏による未来80
④GOOGLE: JEFFREY DEAN氏による未来(WSDM2009)
Future Directions Translate all the world’s documents to all the world’s languages(全
世界の言語で全世界のドキュメントを検索!)世界の言語で全世界のドキュメントを検索!) continuously improving translation quality large-scale systems work to deal with larger and more complex language
models著作権に配慮し削 models
(e.g.) to translate one sentence ⇒ ~1M lookups in multi-TB model ACLs(Access Control Lists) in Information Retrieval Systems(アク
セスコントロ ル)
配慮し削除
セスコントロール) best solution for doc shared with 10 people is different than for doc shared
with the worldsharing patterns of a document might change over time sharing patterns of a document might change over time
Automatic Construction of Efficient IR Systems(パラメータチューニング)
(半構造デ Information Extraction from Semi-structured Data(半構造データ)
http://labs.google.com/papers.html
⑤WOLFARMALPHA(ウルフラムアルファ)⑤WOLFARMALPHA(ウルフラムアルファ)
計算知能エンジン(computational knowledge engine)engine) 情報系大学生なら一度は使ったことのある
Mathematica(数式処理システム)を世に送り出したが会社であるwolfram research社が2009/5/18から公開
ウルフラムアルフウルフラムアルファ
38000CPU(5つのデータセンターに分散) データ
10兆以上のデ タ 10兆以上のデータ データの一部はWebからとっているが、ほとんどのデータはちゃんとした
データ提供元から得ている「source information」ボタンで表示。万を超えるアルゴリズムと デル 5万を超えるアルゴリズムとモデル
1000を超えるドメイン(分野)をハンドル 現在は英語のみ(将来は多言語対応) 現在は英語のみ(将来は多言語対応)
プログラム 500万行に及ぶMathematicaのコード
開発 Stephen Wolframをリーダとした100人程度のチーム 2005年に開発を開始 2005年に開発を開始
ウルフラムアルフ 関連記事ウルフラムアルファ関連記事
Wolfram Alpha Launch Starts Tonight at 5pm Pacific: Here is What You Need to KnowPacific: Here is What You Need to Know http://www.readwriteweb.com/archives/wolfram_alpha
_launch_starts_tonight.php
http://wiredvision.jp/news/200905/2009051122.html http://www.wired.com/epicenter/2009/05/how-the- http://www.wired.com/epicenter/2009/05/how the
wolfram-alpha-search-engine-could-save-google/
⑥BINGアクセス元を
⑥BING元
認識している
84
⑦NAVER⑦NAVER検索結果数が
表示されない!
85
各種参考文献は http://www.yama.info.waseda.ac.jp/~yamana/本日の講演資料はhtt // i f d j / /KOUEN/ 100621 df
ENDhttp://www.yama.info.waseda.ac.jp/~yamana/KOUEN/ewe100621.pdf
END
86