こんな経験はありませんか？そして、こんな経験も？yamana/KOUEN/ewe...日本における検索エンジンの歴史（2）日本初の検索エンジン 1994.12

検索エンジン信頼性検索エンジン信頼性ーSEARCH ENGINEの「今」とその信頼性、

未来へ向けて未来へ向けてー早稲田大学理工学術院情報理工学科山名早人

[email protected]@waseda.jphttp://www.yama.info.waseda.ac.jp/~yamana/

2010/6

1

2010/6

WHO AM I?WHO AM I?

山名早人監訳：G l H k O ti i i W b it 等監訳：Google Hacks, Optimizing Web site等

情報処理学会データベースシステム研究会主査

電子情報通信学会和文Ｄ論文誌編集副委員長

CACM日本語版編集委員長語版編集委員長元IEEE Computer Society Japan Chapterチェア

2

こんな経験はありませんか？こんな経験はありませんか？

3

そしてこんな経験も？そして、こんな経験も？

4

新しい「検索エンジン？新しい「検索エンジン」？

5

AGENDAAGENDA

1. 日本における検索エンジンの歴史の規模と現状2. WEBの規模と現状

3 検索エンジンの信頼性ーランキングー3. 検索エンジンの信頼性ランキング4. 検索エンジンの信頼性ー検索結果数ー5. 新しい検索エンジンと未来

6

1. 日本における検索エンジンの歴史

7

日本における検索エンジンの歴史（１）日本における検索エンジンの歴史（１）

日本初の検索エンジン1994.12

1995.91995.8 ～1999.3 by 早稲田大学(田村氏)

日本初の検索エンジン

NETPLAZA ～2001.1 by 日本電気1995.111995.10

1996.1

NETPLAZA 2001.1 by 日本電気～1999.11 by 富士通

～2000 5 by 日立国際ビジネス1996.11996.4

1996.10

2000.5 by 日立国際ビジネス

by NTT f 1997.3

1997.7

Open Documentary Information Navigator by 東京大学 (原田氏)

1998.101998.6 RCAAU Mo-n-do-u（問答）

by 京都大学(河野先生）

2001.12000.8

1999.11

8

2001.1

日本における検索エンジンの歴史（２）日本における検索エンジンの歴史（２）

日本初の検索エンジン1994.12

1995.91995.8

NETPLAZA ～2001.1 by 日本電気～1999.3 by 早稲田大学(田村氏)日本初の検索エンジン

1995.111995.10

1996.1

～1999.11 by 富士通～2000 5 by 日立国際ビジネス

NETPLAZA 2001.1 by 日本電気

by NTT

1996.1 2000.5 by 日立国際ビジネス1996.4

f 1996.10

Open Documentary Information Navigatby 東京大学 (原田氏)

1997.3

1997.7

RCAAU Mo-n-do-u（問答）by 京都大学(河野先生）1998.10

1998.6

2001.12000.8

1999.11

2003.10 from 2000.11 by 楽天

9

2001.1

主要な検索エンジンのバックエンド主要な検索エンジンのバックエンド Yahoo! • Infoseek Japan Yahoo!

1996.4 powered by Original 1998.5 powered by Goo

p– 1996.10 powered by Original– 2003.9 powered by Google

E it J 2001.4 powered by Google 2004.5 powered by YST

NETPLAZA /BIGLOBE (NEC)

• Excite Japan– 1997.7 powered by Original– 2002 １ powered by Google NETPLAZA /BIGLOBE (NEC)

1995.9 powered by Original 2000.11 powered by Google

2002.１ powered by Google– 百度

– 2008.1 powered by OriginalN

InfoNavi/@Nifty (Fujitsu) 1995.10 powered by Original

2001 4 d b G l

– Naver– 2009.6 powered by Original

2001.4 powered by Google Goo (NTT)

1997 3 powered by Original日本オリジナルな検索

ジ 1997.3 powered by Original 2003.12 Google

MSN

エンジンは消滅

そして、Google/Yahoo!+Bing/

10

Original 2009.5 へ

Google/Yahoo!+Bing/Baidu/NAVERの４強へ

検索エンジン創世記の学主大学における主な研究者たち

プライバシーに配慮し削除

11

２. WEBの規模と現状

12

世界にはどのくらいのWEBペジが存在？世界にはどのくらいのWEBページが存在？

1997年12月：3.2億 [1] 大規模データを持つサーチエンジン間のデータの重なりから

統計的に算出統計的に算出。

1999年 2月：8億/15TB [2] 360万のIPアドレスに対して80番ポートをチェック 2500の 360万のIPアドレスに対して80番ポートをチェック。2500の

Webサーバに対して実際にWebページ収集を行い統計的に算出。 2009年 7月：1270億と推定009年月 0億と推定

平均530ページ/サーバ（2004-2005年収集の85億ページの平均）530 ×20 695万W bサイト[3]≒1096億 530page×20,695万Webサイト[3]≒1096億

[1]S.Lawrence, C.L.Giles:"Searching the World Wide Web", Science, Vol.280, No.5360, pp.98-100 (1998)[2] S.Lawrence, C.L.Giles:"Accessibility of Information on the Web", Nature, Vol.400, pp.107-109 (1999)[3] -: Netcraft Home Page, http://www.netcraft.co.uk/

13

[ ] g , p

CUILのインデックス数CUILのインデックス数

// /http://www.cuil.com/

14

実績- WEBデータ収集実績 WEBデタ収集04/01/19 3拠点(早大,NTT,IDC)で収集開始[30CPU]05/01/17 2拠点追加(早大,NII) [合計50CPU]05/10/21 3拠点にシン追加[合計80CPU]

04/01/19 3拠点(早大,NTT,IDC)で収集開始[30CPU]05/01/17 2拠点追加(早大,NII) [合計50CPU]05/10/21 3拠点にシン追加[合計80CPU]

ページ数

05/10/21 3拠点にマシン追加[合計80CPU]06/09/01～現在 Japaneseページの再収集開始05/10/21 3拠点にマシン追加[合計80CPU]06/09/01～現在 Japaneseページの再収集開始

120130140150

億

8090

100110120

ユニークな収集ページ数

4050607080

010203040

収集先のリアルタイム表示

0 200

4/1/

9200

4/2/

8200

4/3/

10200

4/4/

9200

4/5/

10200

4/6/

9200

4/7/

10200

4/8/

9200

4/9/

9200

4/10

/9200

4/11

/9200

4/12

/9200

5/1/

9200

5/2/

8200

5/3/

11200

5/4/

10200

5/5/

11200

5/6/

10200

5/7/

11200

5/8/

10200

5/9/

10200

5/10

/10

200

5/11

/10

200

5/12

/10

200

6/1/

10200

6/2/

9200

6/3/

12200

6/4/

11200

6/5/

12200

6/6/

11200

6/7/

12200

6/8/

11

2004年度 1 101 838 937 ペジを収集完了ジ2004年度： 1,101,838,937 ページを収集完了2005年度:12,669,681,455 ぺージを収集完了2006/7末:14,456,201,906 ページを収集完了

最大3500万ページ/日を収集(平均約1000万ページ/日)

15

起点と収集方針起点と収集方針

起点約600万のWebサーバリスト約600万のWebサバリスト

2004.1以前に我々が持つ起点リストを利用 1998-2000 分散収集実験他 1998 2000 分散収集実験他

収集方針起点から最大15ホプ先までを収集起点から最大15ホップ先までを収集

収集間隔は1秒（順次5秒,15秒と変更）テキストのみを収集（バイナリは拡張子で排除）

2005.1以降 6時間収集５時間サスペンド降時間収集時間サ 2005.7以降, Webサーバへの負荷軽減対策

16

収集済WEBサバ数収集済WEBサーバ数

発見したWEBサーバ数：１３，４６８万台

アクセス済：８，１１６万台

収集済：５５４８万台収集済：５，５４８万台

14,456,201,906ページ

アクセスできず：2,568万

台

より全

17

robots.txtにより全体がアクセス禁止:256万台

WEBペジのTLD分布WEBページのTLD分布

18

全WEBサバの設置位置分布全WEBサーバの設置位置分布

19

WEBページの言語分布(107億ページ)WEBペジの言語分布(107億ペジ)

20

日本語ペジの占める割合が大きいTLD日本語ページの占める割合が大きいTLD

jp 日本 90.3%to トンガ 59.2%jp 日本 90.3%to トンガ 59.2%st サントメ・プリンシペ(アフリカ） 33.1%

gsサウスジョージア・サウスサンドウィッチ諸島(南アメリカの島）

29.0%

st サントメ・プリンシペ(アフリカ） 33.1%

gsサウスジョージア・サウスサンドウィッチ諸島(南アメリカの島）

29.0%サンドウィッチ諸島(南アメリカの島）

bz ベリーズ(中央アフリカ） 29.0%ac アセンション島 26.1%

サンドウィッチ諸島(南アメリカの島）bz ベリーズ(中央アフリカ） 29.0%ac アセンション島 26.1%

親日国？島

tv ツバル 23.9%sh セントヘレナ 23.1%

ココス諸島 20 0%

島tv ツバル 23.9%sh セントヘレナ 23.1%

ココス諸島 20 0%cc ココス諸島 20.0%com 18.3%coop 15.2%

cc ココス諸島 20.0%com 18.3%coop 15.2%coop 15.2%fm ミクロネシア連邦 14.2%rw ルワンダ 13.5%

全世界平均 13 00%

coop 15.2%fm ミクロネシア連邦 14.2%rw ルワンダ 13.5%

全世界平均 13 00%

21

全世界平均 13.00%全世界平均 13.00%

TVドメイン内のWEBサバの設置位置分布TVドメイン内のWEBサーバの設置位置分布

22

JPドメインに属する約5 4億ペジの言語分布JPドメインに属する約5.4億ページの言語分布

23

日本語で書かれたペジのTLD分布日本語で書かれたページのTLD分布

24

３. 検索エンジンの信頼性ーランキングーランキング

25

Percentage of overlapped pages

検索エンジン間のランキング比較overlapped pages

Num. of Search Results

Query

26

27

検索エンジン間のランキング致度検索エンジン間のランキング一致度

28

Sep 20 Sep 21 Sep 22 Sep 23 Sep 24 Sep 25 Sep 26 Oct 3Sep.20 Sep.21 Sep.22 Sep.23 Sep.24 Sep.25 Sep.26 Oct.3

Transition of the ranking

29


Sep 20 Sep 21 Sep 22 Sep 23 Sep 24 Sep 25 Sep 26 Oct 3


Sep.20 Sep.21 Sep.22 Sep.23 Sep.24 Sep.25 Sep.26 Oct.3

30


Sep 20 Sep 21 Sep 22 Sep 23 Sep 24 Sep 25 Sep 26 Oct 3


Sep.20 Sep.21 Sep.22 Sep.23 Sep.24 Sep.25 Sep.26 Oct.3

31

Word appearance frequency Word appearance frequency

Page CategorizationWord appearance frequency Page CategorizationWord appearance frequency

32

約１０日後のランキング変動約１０日後のランキング変動

33

サイトのランク変動パターン

定位置クラスタのセントロイド上昇クラスタのセントロイド

• 上昇パターン• 定位置パターン

1

51

101キン

グ

Google下位

Yahoo! JAPAN下位

MSN下位

Google上位

1

51

101キン

グ

Google上昇1

Yahoo! JAPAN上昇1

MSN上昇1

Google上昇2

Y h ! JAPAN上昇2101

151

201

平均

ラン

キ

g 上位

Yahoo! JAPAN上位

MSN上位

Google中間

Yahoo! JAPAN中間

MSN中間

101

151

201

平均

ラン

キ Yahoo! JAPAN上昇2

MSN上昇2

Google上昇3

Yahoo! JAPAN上昇3

MSN上昇3

Yahoo! JAPAN上昇4

2007

年6月

2007

年8月

2007

年10

月20

07年

12月

2008

年2月

2008

年4月

2008

年6月

2008

年8月

2008

年10

月20

08年

12月

観測日時

2007

年6月

2007

年8月

2007

年10

月20

07年

12月

2008

年2月

2008

年4月

2008

年6月

2008

年8月

2008

年10

月20

08年

12月

観測日時

下降クラスタのセントロイド

1

• 下降パターン

51

101

151均ラ

ンキ

ング

Google下降1

Yahoo! JAPAN下降1

MSN下降1

Google下降2

Yahoo! JAPAN下降2

降

201

7年6月

7年8月

年10

月

年12

月

8年2月

8年4月

8年6月

8年8月

年10

月

年12

月

平均 MSN下降2

MSN下降3

3420

07年

2007

年20

07年

2007

年

2008

年

2008

年

2008

年

2008

年20

08年

2008

年

観測日時

サイトのランク変動パターン

上昇下降パターン0 10

50

100

キン

グ

Google上昇下降1

Google上昇下降2

Google上昇下降3

1

51

101

ンキ

ング

MSN上昇下降1

MSN上昇下降2

Google MSN100

150

200

平均

ラン

キ

下降3

Google上昇下降4

Google上昇下降5

Google上昇

151

201平均

ラン降

MSN上昇下降3

MSN上昇下降4

250

Jun-07

Jul-07

Aug-07

Sep-07

Oct-07

Nov-07

Dec-07

Jan-08

Feb-08

Mar-08

Apr-08

May-08

Jun-08

Jul-08

Aug-08

Sep-08

Oct-08

Nov-08

Dec-08

観測時期

下降6

Google上昇下降7

Jun-07

Jul-07

Aug-07

Sep-07

Oct-07

Nov-07

Dec-07

Jan-08

Feb-08

Mar-08

Apr-08

May-08

Jun-08

Jul-08

Aug-08

Sep-08

Oct-08

Nov-08

Dec-08

観測時期

MSN上昇下降5

観測時期

0

50

Yahoo!JAPAN上昇下降1

観測時期

Yahoo! JAPAN下降上昇クラスタは出てこない50

100

150

平均

ラン

キン

グ

下降1Yahoo!JAPAN上昇下降2Yahoo!JAPAN上昇下降3Yahoo!JAPAN上昇

降

下降上昇クラスタは出てこない→ 一度落ちたら上がってこない

200

250

Jun-

Jul-

Aug-

Sep-

Oct-

Nov-

Dec-

Jan-

Feb-

Mar-

Apr-

May-

Jun-

Jul-

Aug-

Sep-

Oct-

Nov-

Dec-

下降4Yahoo!JAPAN上昇下降5Yahoo!JAPAN上昇下降6

u07

u07

g07

p07

ct07

v07

c07

a08

eb08

a08

p08

y08

u08

u08

g08

p08

ct08

v08

c08

観測時期

上位下位クラスタの比較（サイトの生成日時）上位・下位クラスタの比較（サイトの生成日時）

年デタ数が少な※ 2008年はデータ数が少ないため割合小さい

下位のクラスタのほうが生成年が新しい生成年が新しい

↓古いものがランキング古いものがランキング

上位に存在し続ける傾向

36

中間上昇下降上昇下降クラスタサイト生成日時比較中間/上昇/下降/上昇下降クラスタのサイト生成日時比較

上昇クラスタは上昇クラスタは生成年が新しい傾向

↓↓ランキングが低いまま古くなると上がりにくい

※ 2008年はデータ数が少ない

37

ため割合が小さい

４. 検索エンジンの信頼性ー検索結果数ー検索結果数

38

オバマ大統領とGOOG はどちらが有名か？オバマ大統領とGOOGLEはどちらが有名か？

Google

著作権に配慮し削除

Barack Obama39

しかし検索結果ヒット数は変動するしかし、検索結果ヒット数は変動する…

40

検索結果ヒット数と実際に得られる数検索結果ヒット数と実際に得られる数

41

Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA

前置詞の検討(1)関連技術紹介－Googleを用いた翻訳サポートシステム Google

前置詞の検討(1)

現在製造されている自動車のほとんどはガソリンで走る

Exciteで翻訳ワイルドカード

「任意の文字」をMost cars manufactured now run with gasoline.

「任意の文字」を表す特殊文字

ん？「ガソリンで走る」っ“run * gasoline” 「ガソリンで走る」っ

て「run with gasoline」で良かっ

たっけ？

run gasolineで検索

たっけ？他に何か前置詞なかったっけ？前置詞の部分を

42

ワイルドカードに置き換えて検索


関連技術紹介－Googleを用いた翻訳サポートシステム Google


候補

検索結果から

候補

検索結果からrun とgasolineとの間にくる

前置詞は

run with gasoline

run on gasolineそれぞれを

フレズ検索・on・by

があることがわかった

run on gasoline

run by gasoline

フレーズ検索

があるとがわかった

表1:前置詞の検討

検索文字列ヒット件数

“run on gasoline” 4,420

「on」を使った用例が圧倒的に多い

“run by gasoline” 131

“ ith li ” 50「run on gasoline」

とするのが

43

“run with gasoline” 50 とするのが一番適当である


和英辞典とGOOGLEを使た検討(1)


和英辞典とGOOGLEを使った検討(1)

価格安定は重要な経済政策目標である

Th i t bili ti i i t t i li l

Exciteで翻訳

The price stabilization is an important economic policy goal.

「価格安定」の「安定」の単語はstabilizationでよかったっけ？

他に何か候補はないだろうか？他に何か候補はないだろうか？

「安定」「価格安定」の候補「安定」・stabilization・stability

ilib i

「安定」を和英辞典で調べると・・・

「価格安定」の候補・price stabilization・price stability

i ilib i

44

・equilibrium ・price equilibrium


和英辞典とGOOGLEを使た検討(2)


和英辞典とGOOGLEを使った検討(2)表4: 「価格安定」の訳語

検索文字列ヒット件数

“price stabilization” 14,700price stabilization 14,700

“price stability” 156,000 圧倒的に件数が多い

“price equilibrium” 8,290件数が多い

「価格安定」の「安定」はstabilityとして使うのが適当

検索結果のURLを見ると、“price equilibrium”の表現を使っているドメインは「de」が多いことがわかる→非英語圏で使われていることがわかる

45


ワイルドカドを使た検討の自動化


ワイルドカードを使った検討の自動化

t i twet in sweat

wet ＊ sweat選択されたin

wet sweat

GoogleAPIで検索フレーズ全体と選択範囲

両方POST 「in」の品詞をチェック

ワイルドカードにした部分の品詞をMontyLinguaでチェック

検索結果より発見前置詞だけの結果を取り出す

検索結果件数wet with sweat

wet from sweat

検索結果件数

3,280

274

wet in sweat

wet from sweat 274854

46

wet in sweatフレーズ検索


システムの実行画面(1)



「run with gasoline」をrun with gasoline」を入力して

「with」をドラッグ選択「with」をドラッグ選択

「with」の品詞を選択図2：ワイルドカードを使った検討の入力画面

「実行」ボタンをクリック

47

実行」ボタンをクリック





この一連の操作をこの連の操作を3～4秒で実現

図3：前置詞の検討を行った結果画面

48

図3：前置詞の検討を行った結果画面

２つのクエリ間における２つのクエリ間における検索結果数大小関係の入れ替わり率

49

ヒット数変動

50

ヒット数変動検索エンジンが変化する3ケースについて検証「どうすれば信頼できるヒット数が得られるのか」を示す

ヒット数が変化する３つのケース

Case1: 「検索」ボタンを何度も押した場合Case2: 「次へ」ボタンを何度も押した場合Case2: 「次へ」ボタンを何度も押した場合Case3: 検索する日時を変えて検索を行った場合

• 本研究の意義ヒット数を利用した研究に，「信頼できるヒット数」の取得方法を提供する取得方法を提供する

実験環境実験環境 Web Search API

Crawlerキーワードを選択

Crawler

クエリを作成

並列に検索

結整保存結果の整理・保存

並列検索のためのクエリ

キーワードAに対して．．．

51

A : 1-10 A : 11-20 A : 21-30 A : 991-1000・・・

オフセット１オフセット１１オフセット２１オフセット９９１

検証事項

52

検証事項

，，について検証検証

各社が提供しているAPIを経由してヒット数を取得各社が提供しているAPIを経由して，ヒット数を取得検索設定は，各検索エンジンのデフォルト設定を利用

検索に使用するクエリ 2007年12月のYahoo! JAPANクエリログ（検索頻度の上位10,000件のクエリログ）

「情報爆発」[13]において提供頂いたデータ

[13] 情報爆発時代に向けた新しいIT基盤技術の研究：http://www.infoplosion.nii.ac.jp/info-plosion/

CASE1:「検索」ボタンを何度も押した場合による変動

53

CASE1: 検索」ボタンを何度も押した場合による変動

１．それぞれのクエリに対して，5分以内に100回検索を行う２取得したヒット数から変動係数を算出する２．取得したヒット数から，変動係数を算出する

標準偏差分散

変動係数グを作成する

変動係数 cv = 標準偏差平均平均

=分散

３．変動係数でヒストグラムを作成する

CASE1 :検証結果54

rangeFrequency

Google Bing Yahoo!cv = 0.0% 9,977 699 9,096

0.0% < cv

CASE 3:検索日時の変化によるヒット数の変動

57

CASE 3:検索日時の変化によるヒット数の変動

• 2009 10/11から 12/12の約二ヵ月間，10,000個のクエリについて毎日ヒット数を取得

{HitCount(10/11) HitCount(10/12) HitCount(12/12)}{HitCount(10/11)，HitCount(10/12)，…，HitCount(12/12)}

• 10/11のヒット数に対する変動率ベクトルを算出)12/12()12/10()11/10( HitCountHitCountHitCount })11/10()12/12(,...,

)11/10()12/10(,

)11/10()11/10({

HitCountHitCount

HitCountHitCount

HitCountHitCount

算出した変動率ベクトルをk m nsクラスタリング• 算出した変動率ベクトルをk-meansクラスタリング‐利用する特徴量はコサイン類似度

CASE3 :検証結果58

Googlek=4

BingBingk=5

Yahoo! Yahoo! k=3

まとめ：信頼できるヒット数とは59

まとめ信頼できるット数とは

次のような場合に信頼できるヒット数が得られる次のような場合に信頼できるヒット数が得られる

検索開始オフセットの変化に伴うヒット数の変動に対し

ヒット数が恣意的に調整されておらず，かつ検索開始オフセットが最も大きな値のときかつ，検索開始オフセットが最も大きな値のとき

時系列によるヒット数の変動が「安定期」（１週間で３０％以上

時間経過に伴うヒット数の変動に対し

時系列によるヒット数の変動が「安定期」（１週間で３０％以上変化しない）に入っている場合

検索エンジンの信頼性について検索エンジンの信頼性について

ユーザの立場としてできることランキングランキング

調べ物をする際には、必ず複数の検索エンジンを用いる

特にサーベイでは必須特にサベイでは必須

ランキングは、検索エンジン間でも大きく異なるのはもちろん、日々変動していることを念頭におくろん、変動してるを念頭おく

検索結果数検索結果数をもって「どちらが有名か」を判断する場合に検索結果数をもって「どちらが有名か」を判断する場合には、必ず「次へ」をクリックして、最後に表示される検索結果数を信頼する

検索結果数は日々変動しているので、できれば１週間程度の期間、調査することが望ましい。

60

５. 新しい検索エンジンと未来

61

2020年のSEARCHは？（WSDM2008）2020年のSEARCHは？（WSDM2008）

従来の検索ボックス（ソーシャル or 人間）パワーサーチ（ソシャル人間）ワサチ

Yahoo!JAPAN 知恵袋 OKWave

Machine Reading= Information Extraction + Tractable Interface

Text Runner 自然言語サーチ自然言語サチ

セマンティックWeb

true knowledge(ケンブリッジ大学） Powerset

これを区別できますか？これを区別できますか？

Book by children Book for children Book of Book of

①TEXT RUNNER①TEXT RUNNER

大学教授

2020年はMachine

ワシントン大学教授 Oren Etzioni氏 2020年はMachine

Readingの時代 Machine Reading = Machine Reading =

Information Extraction + Tractable Interface

KnowItAllプロジェクト 1億のWebページから5 1億のWebペジから5億の文を抽出し利用

HUMAN READING V S MACHINE READINGHUMAN READING V.S. MACHINE READING

http://turing.cs.washington.edu/papers/SSS07EtzioniO.pdf

ＴＥＸＴＲＵＮＮＥＲＳＥＡＲＣＨＴＥＸＴＲＵＮＮＥＲＳＥＡＲＣＨ

パターン「Thomas Edison * invent/invented/invents *」を探す

TEXTRUNNERに関する補足TEXTRUNNERに関する補足

コーパスはセレクトされたものが重要であり、Webページをそのまま利用することはできない。

ユーザからのクエリに対してオンザフライで知識を抽出する。

事前のタグは不要であり、（arg1, relation, arg2）の関係を自動的に見つける．

推論の実現 (Turing, born in, London) (london, part of England) →

(Tuning born in England) (1,R,2) (1,R,2’)(2,R’,4),(2’,R’,4)であれば2=4と推定するる。

信頼度計算異なる表現の分布をチェック異なる表現の分布をチェック

②POWERSETの出力結果②POWERSETの出力結果

POWERSETPOWERSET

２００８／５／１１に一般向けリリース

WikipediaとFreebaseのデータを利用

検索例１検索例１

検索例2検索例2 検索例3検索例3

検索例4検索例4 検索例５検索例５

著作権に配慮し削配慮し削

除

検索例５検索例５

著作権に配慮し削配慮し削

除

POWERSETPOWERSET

自然言語処理をしているようには思えず。

パタを抽出しるにすぎなのは？パターンを抽出しているにすぎないのでは？

TextRunnerと似たテクニックの利用 TextRunnerと似たテクニックの利用

③TRUE KNOWLEDGE③TRUE KNOWLEDGE TRUE KNOWLEDGETRUE KNOWLEDGE

知識ベースの量が少なく、多くの質問に回答できずできず。

9907万件のfacts件

④GOOGLE: JEFFREY DEAN氏による未来80

④GOOGLE: JEFFREY DEAN氏による未来（WSDM2009）

Future Directions Translate all the world’s documents to all the world’s languages(全

世界の言語で全世界のドキュメントを検索！）世界の言語で全世界のドキュメントを検索！） continuously improving translation quality large-scale systems work to deal with larger and more complex language

models著作権に配慮し削 models

(e.g.) to translate one sentence ⇒ ~1M lookups in multi-TB model ACLs(Access Control Lists) in Information Retrieval Systems（アク

セスコントロル）

配慮し削除

セスコントロール） best solution for doc shared with 10 people is different than for doc shared

with the worldsharing patterns of a document might change over time sharing patterns of a document might change over time

Automatic Construction of Efficient IR Systems（パラメータチューニング）

（半構造デ Information Extraction from Semi-structured Data（半構造データ）

http://labs.google.com/papers.html

⑤WOLFARMALPHA(ウルフラムアルファ）⑤WOLFARMALPHA(ウルフラムアルファ）

計算知能エンジン（computational knowledge engine)engine) 情報系大学生なら一度は使ったことのある

Mathematica（数式処理システム）を世に送り出したが会社であるwolfram research社が2009/5/18から公開

ウルフラムアルフウルフラムアルファ

３８０００CPU（５つのデータセンターに分散）データ

10兆以上のデタ 10兆以上のデータデータの一部はWebからとっているが、ほとんどのデータはちゃんとした

データ提供元から得ている「source information」ボタンで表示。万を超えるアルゴリズムとデル 5万を超えるアルゴリズムとモデル

1000を超えるドメイン（分野）をハンドル現在は英語のみ（将来は多言語対応）現在は英語のみ（将来は多言語対応）

プログラム 500万行に及ぶMathematicaのコード

開発 Stephen Wolframをリーダとした100人程度のチーム 2005年に開発を開始 2005年に開発を開始

ウルフラムアルフ関連記事ウルフラムアルファ関連記事

Wolfram Alpha Launch Starts Tonight at 5pm Pacific: Here is What You Need to KnowPacific: Here is What You Need to Know http://www.readwriteweb.com/archives/wolfram_alpha

_launch_starts_tonight.php

http://wiredvision.jp/news/200905/2009051122.html http://www.wired.com/epicenter/2009/05/how-the- http://www.wired.com/epicenter/2009/05/how the

wolfram-alpha-search-engine-could-save-google/

⑥BINGアクセス元を

⑥BING元

認識している

84

⑦NAVER⑦NAVER検索結果数が

表示されない！

85

各種参考文献は http://www.yama.info.waseda.ac.jp/~yamana/本日の講演資料はhtt // i f d j / /KOUEN/ 100621 df

ENDhttp://www.yama.info.waseda.ac.jp/~yamana/KOUEN/ewe100621.pdf

END

86

Documents

こんな経験はありませんか？ そして、こんな経験も？yamana/KOUEN/ewe...日本における検索エンジンの歴史（2） 日本初の検索エンジン 1994.12

こんな経験はありませんか？そして、こんな経験も？yamana/KOUEN/ewe...日本における検索エンジンの歴史（2）日本初の検索エンジン 1994.12