22
検索エンジン信頼性 検索エンジン信頼性 SEARCH ENGINEの「今」とその信頼性、 未来けて 未来けて早稲田大学 理工学術院 情報理工学科 山名早人 [email protected] http://www.yama.info.waseda.ac.jp/~yamana/ 2010/6 1 2010/6 WHO AM I? WHO AM I? 山名早人 監訳G l H k O ti ii W b it 監訳Google Hacks, Optimizing Web site 情報処理学会データベースシステム研究会主査 電子情報通信学会和文D論文誌編集副委員長 CACM日本語版編集委員長 IEEE Computer Society Japan Chapterチェア 2 こんな経験はありませんかこんな経験はありませんか3 そして こんな経験そしてこんな経験4

こんな経験はありませんか? そして、こんな経験も?yamana/KOUEN/ewe...日本における検索エンジンの歴史(2) 日本初の検索エンジン 1994.12

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • 検索エンジン信頼性検索エンジン信頼性ーSEARCH ENGINEの「今」とその信頼性、

    未来へ向けて未来へ向けてー早稲田大学 理工学術院情報理工学科 山名早人

    [email protected]@waseda.jphttp://www.yama.info.waseda.ac.jp/~yamana/

    2010/6

    1

    2010/6

    WHO AM I?WHO AM I?

    山名早人監訳:G l H k O ti i i W b it 等 監訳:Google Hacks, Optimizing Web site等

    情報処理学会データベースシステム研究会主査

    電子情報通信学会和文D論文誌編集副委員長

    CACM日本語版編集委員長語版編集委員長 元IEEE Computer Society Japan Chapterチェア

    2

    こんな経験はありませんか?こんな経験はありませんか?

    3

    そして こんな経験も?そして、こんな経験も?

    4

  • 新しい「検索エンジン ?新しい「検索エンジン」?

    5

    AGENDAAGENDA

    1. 日本における検索エンジンの歴史の規模と現状2. WEBの規模と現状

    3 検索エンジンの信頼性ーランキングー3. 検索エンジンの信頼性 ランキング4. 検索エンジンの信頼性ー検索結果数ー5. 新しい検索エンジンと未来

    6

    1. 日本における検索エンジンの歴史

    7

    日本における検索エンジンの歴史(1)日本における検索エンジンの歴史(1)

    日本初の検索エンジン1994.12

    1995.91995.8 ~1999.3 by 早稲田大学(田村氏)

    日本初の検索エンジン

    NETPLAZA ~2001.1 by 日本電気1995.111995.10

    1996.1

    NETPLAZA 2001.1 by 日本電気~1999.11 by 富士通

    ~2000 5 by 日立国際ビジネス1996.11996.4

    1996.10

    2000.5 by 日立国際ビジネス

    by NTT f 1997.3

    1997.7

    Open Documentary Information Navigator by 東京大学 (原田氏)

    1998.101998.6 RCAAU Mo-n-do-u(問答)

    by 京都大学(河野先生)

    2001.12000.8

    1999.11

    8

    2001.1

  • 日本における検索エンジンの歴史(2)日本における検索エンジンの歴史(2)

    日本初の検索エンジン1994.12

    1995.91995.8

    NETPLAZA ~2001.1 by 日本電気~1999.3 by 早稲田大学(田村氏)日本初の検索エンジン

    1995.111995.10

    1996.1

    ~1999.11 by 富士通~2000 5 by 日立国際ビジネス

    NETPLAZA 2001.1 by 日本電気

    by NTT

    1996.1 2000.5 by 日立国際ビジネス1996.4

    f 1996.10

    Open Documentary Information Navigatby 東京大学 (原田氏)

    1997.3

    1997.7

    RCAAU Mo-n-do-u(問答)by 京都大学(河野先生)1998.10

    1998.6

    2001.12000.8

    1999.11

    2003.10 from 2000.11 by 楽天

    9

    2001.1

    主要な検索エンジンのバックエンド主要な検索エンジンのバックエンド Yahoo! • Infoseek Japan Yahoo!

    1996.4 powered by Original 1998.5 powered by Goo

    p– 1996.10 powered by Original– 2003.9 powered by Google

    E it J 2001.4 powered by Google 2004.5 powered by YST

    NETPLAZA /BIGLOBE (NEC)

    • Excite Japan– 1997.7 powered by Original– 2002 1 powered by Google NETPLAZA /BIGLOBE (NEC)

    1995.9 powered by Original 2000.11 powered by Google

    2002.1 powered by Google– 百度

    – 2008.1 powered by OriginalN

    InfoNavi/@Nifty (Fujitsu) 1995.10 powered by Original

    2001 4 d b G l

    – Naver– 2009.6 powered by Original

    2001.4 powered by Google Goo (NTT)

    1997 3 powered by Original日本オリジナルな検索

    ジ 1997.3 powered by Original 2003.12 Google

    MSN

    エンジンは消滅

    そして、Google/Yahoo!+Bing/

    10

    Original 2009.5 へ

    Google/Yahoo!+Bing/Baidu/NAVERの4強へ

    検索エンジン創世記の学 主大学における主な研究者たち

    プライバシーに配慮し削除

    11

    2. WEBの規模と現状

    12

  • 世界にはどのくらいのWEBペ ジが存在?世界にはどのくらいのWEBページが存在?

    1997年12月:3.2億 [1] 大規模データを持つサーチエンジン間のデータの重なりから

    統計的に算出統計的に算出。

    1999年 2月:8億/15TB [2] 360万のIPアドレスに対して80番ポートをチェック 2500の 360万のIPアドレスに対して80番ポートをチェック。2500の

    Webサーバに対して実際にWebページ収集を行い統計的に算出。 2009年 7月:1270億と推定009年 月 0億と推定

    平均530ページ/サーバ(2004-2005年収集の85億ページの平均)530 ×20 695万W bサイト[3]≒1096億 530page×20,695万Webサイト[3]≒1096億

    [1]S.Lawrence, C.L.Giles:"Searching the World Wide Web", Science, Vol.280, No.5360, pp.98-100 (1998)[2] S.Lawrence, C.L.Giles:"Accessibility of Information on the Web", Nature, Vol.400, pp.107-109 (1999)[3] -: Netcraft Home Page, http://www.netcraft.co.uk/

    13

    [ ] g , p

    CUILのインデックス数CUILのインデックス数

    // /http://www.cuil.com/

    14

    実績- WEBデータ収集実績 WEBデ タ収集04/01/19 3拠点(早大,NTT,IDC)で収集開始[30CPU]05/01/17 2拠点追加(早大,NII) [合計50CPU]05/10/21 3拠点に シン追加[合計80CPU]

    04/01/19 3拠点(早大,NTT,IDC)で収集開始[30CPU]05/01/17 2拠点追加(早大,NII) [合計50CPU]05/10/21 3拠点に シン追加[合計80CPU]

    ページ数

    05/10/21 3拠点にマシン追加[合計80CPU]06/09/01~現在 Japaneseページの再収集開始05/10/21 3拠点にマシン追加[合計80CPU]06/09/01~現在 Japaneseページの再収集開始

    120130140150

    8090

    100110120

    ユニークな収集ページ数

    4050607080

    010203040

    収集先のリアルタイム表示

    0 200

    4/1/

    9200

    4/2/

    8200

    4/3/

    10200

    4/4/

    9200

    4/5/

    10200

    4/6/

    9200

    4/7/

    10200

    4/8/

    9200

    4/9/

    9200

    4/10

    /9200

    4/11

    /9200

    4/12

    /9200

    5/1/

    9200

    5/2/

    8200

    5/3/

    11200

    5/4/

    10200

    5/5/

    11200

    5/6/

    10200

    5/7/

    11200

    5/8/

    10200

    5/9/

    10200

    5/10

    /10

    200

    5/11

    /10

    200

    5/12

    /10

    200

    6/1/

    10200

    6/2/

    9200

    6/3/

    12200

    6/4/

    11200

    6/5/

    12200

    6/6/

    11200

    6/7/

    12200

    6/8/

    11

    2004年度 1 101 838 937 ペ ジを収集完了 ジ2004年度: 1,101,838,937 ページを収集完了2005年度:12,669,681,455 ぺージを収集完了2006/7末:14,456,201,906 ページを収集完了

    最大3500万ページ/日を収集(平均約1000万ページ/日)

    15

    起点と収集方針起点と収集方針

    起点約600万のWebサーバリスト約600万のWebサ バリスト

    2004.1以前に我々が持つ起点リストを利用 1998-2000 分散収集実験他 1998 2000 分散収集実験他

    収集方針起点から最大15ホ プ先までを収集起点から最大15ホップ先までを収集

    収集間隔は1秒(順次5秒,15秒と変更)テキストのみを収集(バイナリは拡張子で排除)

    2005.1以降 6時間収集5時間サスペンド降 時間収集 時間サ 2005.7以降, Webサーバへの負荷軽減対策

    16

  • 収集済WEBサ バ数収集済WEBサーバ数

    発見したWEBサーバ数:13,468万台

    アクセス済:8,116万台

    収集済:5 548万台収集済:5,548万台

    14,456,201,906ページ

    アクセスできず:2,568万

    より全

    17

    robots.txtにより全体がアクセス禁止:256万台

    WEBペ ジのTLD分布WEBページのTLD分布

    18

    全WEBサ バの設置位置分布全WEBサーバの設置位置分布

    19

    WEBページの言語分布(107億ページ)WEBペ ジの言語分布(107億ペ ジ)

    20

  • 日本語ペ ジの占める割合が大きいTLD日本語ページの占める割合が大きいTLD

    jp 日本 90.3%to トンガ 59.2%jp 日本 90.3%to トンガ 59.2%st サントメ・プリンシペ(アフリカ) 33.1%

    gsサウスジョージア・サウスサンドウィッチ諸島(南アメリカの島)

    29.0%

    st サントメ・プリンシペ(アフリカ) 33.1%

    gsサウスジョージア・サウスサンドウィッチ諸島(南アメリカの島)

    29.0%サンドウィッチ諸島(南アメリカの島)

    bz ベリーズ(中央アフリカ) 29.0%ac アセンション島 26.1%

    サンドウィッチ諸島(南アメリカの島)bz ベリーズ(中央アフリカ) 29.0%ac アセンション島 26.1%

    親日国?島

    tv ツバル 23.9%sh セントヘレナ 23.1%

    ココス諸島 20 0%

    島tv ツバル 23.9%sh セントヘレナ 23.1%

    ココス諸島 20 0%cc ココス諸島 20.0%com 18.3%coop 15.2%

    cc ココス諸島 20.0%com 18.3%coop 15.2%coop 15.2%fm ミクロネシア連邦 14.2%rw ルワンダ 13.5%

    全世界平均 13 00%

    coop 15.2%fm ミクロネシア連邦 14.2%rw ルワンダ 13.5%

    全世界平均 13 00%

    21

    全世界平均 13.00%全世界平均 13.00%

    TVドメイン内のWEBサ バの設置位置分布TVドメイン内のWEBサーバの設置位置分布

    22

    JPドメインに属する約5 4億ペ ジの言語分布JPドメインに属する約5.4億ページの言語分布

    23

    日本語で書かれたペ ジのTLD分布日本語で書かれたページのTLD分布

    24

  • 3. 検索エンジンの信頼性ーランキングーランキング

    25

    Percentage of overlapped pages

    検索エンジン間のランキング比較overlapped pages

    Num. of Search Results

    Query

    26

    27

    検索エンジン間のランキング 致度検索エンジン間のランキング一致度

    28

  • Sep 20 Sep 21 Sep 22 Sep 23 Sep 24 Sep 25 Sep 26 Oct 3Sep.20 Sep.21 Sep.22 Sep.23 Sep.24 Sep.25 Sep.26 Oct.3

    Transition of the ranking

    29

    Transition of the ranking

    Sep 20 Sep 21 Sep 22 Sep 23 Sep 24 Sep 25 Sep 26 Oct 3

    Transition of the ranking

    Sep.20 Sep.21 Sep.22 Sep.23 Sep.24 Sep.25 Sep.26 Oct.3

    30

    Transition of the ranking

    Sep 20 Sep 21 Sep 22 Sep 23 Sep 24 Sep 25 Sep 26 Oct 3

    Transition of the ranking

    Sep.20 Sep.21 Sep.22 Sep.23 Sep.24 Sep.25 Sep.26 Oct.3

    31

    Word appearance frequency Word appearance frequency

    Page CategorizationWord appearance frequency Page CategorizationWord appearance frequency

    32

  • 約10日後のランキング変動約10日後のランキング変動

    33

    サイトのランク変動パターン

    定位置クラスタのセントロイド 上昇クラスタのセントロイド

    • 上昇パターン• 定位置パターン

    1

    51

    101キン

    Google下位

    Yahoo! JAPAN下位

    MSN下位

    Google上位

    1

    51

    101キン

    Google上昇1

    Yahoo! JAPAN上昇1

    MSN上昇1

    Google上昇2

    Y h ! JAPAN上昇2101

    151

    201

    平均

    ラン

    g 上位

    Yahoo! JAPAN上位

    MSN上位

    Google中間

    Yahoo! JAPAN中間

    MSN中間

    101

    151

    201

    平均

    ラン

    キ Yahoo! JAPAN上昇2

    MSN上昇2

    Google上昇3

    Yahoo! JAPAN上昇3

    MSN上昇3

    Yahoo! JAPAN上昇4

    2007

    年6月

    2007

    年8月

    2007

    年10

    月20

    07年

    12月

    2008

    年2月

    2008

    年4月

    2008

    年6月

    2008

    年8月

    2008

    年10

    月20

    08年

    12月

    観測日時

    2007

    年6月

    2007

    年8月

    2007

    年10

    月20

    07年

    12月

    2008

    年2月

    2008

    年4月

    2008

    年6月

    2008

    年8月

    2008

    年10

    月20

    08年

    12月

    観測日時

    下降クラスタのセントロイド

    1

    • 下降パターン

    51

    101

    151均ラ

    ンキ

    ング

    Google下降1

    Yahoo! JAPAN下降1

    MSN下降1

    Google下降2

    Yahoo! JAPAN下降2

    201

    7年6月

    7年8月

    年10

    年12

    8年2月

    8年4月

    8年6月

    8年8月

    年10

    年12

    平均 MSN下降2

    MSN下降3

    3420

    07年

    2007

    年20

    07年

    2007

    2008

    2008

    2008

    2008

    年20

    08年

    2008

    観測日時

    サイトのランク変動パターン

    上昇下降パターン0 10

    50

    100

    キン

    Google上昇下降1

    Google上昇下降2

    Google上昇下降3

    1

    51

    101

    ンキ

    ング

    MSN上昇下降1

    MSN上昇下降2

    Google MSN100

    150

    200

    平均

    ラン

    下降3

    Google上昇下降4

    Google上昇下降5

    Google上昇

    151

    201平均

    ラン 降

    MSN上昇下降3

    MSN上昇下降4

    250

    Jun-07

    Jul-07

    Aug-07

    Sep-07

    Oct-07

    Nov-07

    Dec-07

    Jan-08

    Feb-08

    Mar-08

    Apr-08

    May-08

    Jun-08

    Jul-08

    Aug-08

    Sep-08

    Oct-08

    Nov-08

    Dec-08

    観測時期

    下降6

    Google上昇下降7

    Jun-07

    Jul-07

    Aug-07

    Sep-07

    Oct-07

    Nov-07

    Dec-07

    Jan-08

    Feb-08

    Mar-08

    Apr-08

    May-08

    Jun-08

    Jul-08

    Aug-08

    Sep-08

    Oct-08

    Nov-08

    Dec-08

    観測時期

    MSN上昇下降5

    観測時期

    0

    50

    Yahoo!JAPAN上昇下降1

    観測時期

    Yahoo! JAPAN下降上昇クラスタは出てこない50

    100

    150

    平均

    ラン

    キン

    下降1Yahoo!JAPAN上昇下降2Yahoo!JAPAN上昇下降3Yahoo!JAPAN上昇

    下降上昇クラスタは出てこない→ 一度落ちたら上がってこない

    200

    250

    Jun-

    Jul-

    Aug-

    Sep-

    Oct-

    Nov-

    Dec-

    Jan-

    Feb-

    Mar-

    Apr-

    May-

    Jun-

    Jul-

    Aug-

    Sep-

    Oct-

    Nov-

    Dec-

    下降4Yahoo!JAPAN上昇下降5Yahoo!JAPAN上昇下降6

    u07

    u07

    g07

    p07

    ct07

    v07

    c07

    a08

    eb08

    a08

    p08

    y08

    u08

    u08

    g08

    p08

    ct08

    v08

    c08

    観測時期

    上位 下位クラスタの比較(サイトの生成日時)上位・下位クラスタの比較(サイトの生成日時)

    年 デ タ数が少な※ 2008年はデータ数が少ないため割合小さい

    下位のクラスタのほうが生成年が新しい生成年が新しい

    ↓古いものがランキング古いものがランキング

    上位に存在し続ける傾向

    36

  • 中間 上昇 下降 上昇下降クラスタ サイト生成日時比較中間/上昇/下降/上昇下降クラスタのサイト生成日時比較

    上昇クラスタは上昇クラスタは生成年が新しい傾向

    ↓↓ランキングが低いまま古くなると上がりにくい

    ※ 2008年はデータ数が少ない

    37

    ため割合が小さい

    4. 検索エンジンの信頼性ー検索結果数ー検索結果数

    38

    オバマ大統領とGOOG はどちらが有名か?オバマ大統領とGOOGLEはどちらが有名か?

    Google

    著作権に配慮し削除

    Barack Obama39

    しかし 検索結果ヒット数は変動するしかし、検索結果ヒット数は変動する…

    40

  • 検索結果ヒット数と実際に得られる数検索結果ヒット数と実際に得られる数

    41

    Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA

    前置詞の検討(1)関連技術紹介-Googleを用いた翻訳サポートシステム Google

    前置詞の検討(1)

    現在製造されている自動車のほとんどはガソリンで走る

    Exciteで翻訳ワイルドカード

    「任意の文字」をMost cars manufactured now run with gasoline.

    「任意の文字」を表す特殊文字

    ん?「ガソリンで走る」っ“run * gasoline” 「ガソリンで走る」っ

    て「run with gasoline」で良かっ

    たっけ?

    run gasolineで検索

    たっけ?他に何か前置詞なかったっけ?前置詞の部分を

    42

    ワイルドカードに置き換えて検索

    前置詞の検討(2)

    関連技術紹介-Googleを用いた翻訳サポートシステム Google

    前置詞の検討(2)

    候補

    検索結果から

    候補

    検索結果からrun とgasolineとの間にくる

    前置詞は

    run with gasoline

    run on gasolineそれぞれを

    フレ ズ検索・on・by

    があることがわかった

    run on gasoline

    run by gasoline

    フレーズ検索

    がある とがわかった

    表1:前置詞の検討

    検索文字列 ヒット件数

    “run on gasoline” 4,420

    「on」を使った用例が圧倒的に多い

    “run by gasoline” 131

    “ ith li ” 50「run on gasoline」

    とするのが

    43

    “run with gasoline” 50 とするのが一番適当である

    Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA

    和英辞典とGOOGLEを使 た検討(1)

    関連技術紹介-Googleを用いた翻訳サポートシステム Google

    和英辞典とGOOGLEを使った検討(1)

    価格安定は重要な経済政策目標である

    Th i t bili ti i i t t i li l

    Exciteで翻訳

    The price stabilization is an important economic policy goal.

    「価格安定」の「安定」の単語はstabilizationでよかったっけ?

    他に何か候補はないだろうか?他に何か候補はないだろうか?

    「安定」 「価格安定」の候補「安定」・stabilization・stability

    ilib i

    「安定」を和英辞典で調べると・・・

    「価格安定」の候補・price stabilization・price stability

    i ilib i

    44

    ・equilibrium ・price equilibrium

  • Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA

    和英辞典とGOOGLEを使 た検討(2)

    関連技術紹介-Googleを用いた翻訳サポートシステム Google

    和英辞典とGOOGLEを使った検討(2)表4: 「価格安定」の訳語

    検索文字列 ヒット件数

    “price stabilization” 14,700price stabilization 14,700

    “price stability” 156,000 圧倒的に件数が多い

    “price equilibrium” 8,290件数が多い

    「価格安定」の「安定」はstabilityとして使うのが適当

    検索結果のURLを見ると、“price equilibrium”の表現を使っているドメインは「de」が多いことがわかる→非英語圏で使われていることがわかる

    45

    Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA

    ワイルドカ ドを使 た検討の自動化

    関連技術紹介-Googleを用いた翻訳サポートシステム Google

    ワイルドカードを使った検討の自動化

    t i twet in sweat

    wet * sweat選択されたin

    wet sweat

    GoogleAPIで検索フレーズ全体と選択範囲

    両方POST 「in」の品詞をチェック

    ワイルドカードにした部分の品詞をMontyLinguaでチェック

    検索結果より発見 前置詞だけの結果を取り出す

    検索結果件数wet with sweat

    wet from sweat

    検索結果件数

    3,280

    274

    wet in sweat

    wet from sweat 274854

    46

    wet in sweatフレーズ検索

    Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA

    システムの実行画面(1)

    関連技術紹介-Googleを用いた翻訳サポートシステム Google

    システムの実行画面(1)

    「run with gasoline」をrun with gasoline」を入力して

    「with」をドラッグ選択「with」をドラッグ選択

    「with」の品詞を選択 図2: ワイルドカードを使った検討の入力画面

    「実行」ボタンをクリック

    47

    実行」ボタンをクリック

    Oct.2005(C) 2002-2005 All Rights Reserved Hayato YAMANA

    システムの実行画面(2)

    関連技術紹介-Googleを用いた翻訳サポートシステム Google

    システムの実行画面(2)

    この一連の操作をこの 連の操作を3~4秒で実現

    図3: 前置詞の検討を行った結果画面

    48

    図3: 前置詞の検討を行った結果画面

  • 2つのクエリ間における2つのクエリ間における検索結果数大小関係の入れ替わり率

    49

    ヒット数変動

    50

    ヒット数変動 検索エンジンが変化する3ケースについて検証 「どうすれば信頼できるヒット数が得られるのか」を示す

    ヒット数が変化する3つのケース

    Case1: 「検索」ボタンを何度も押した場合Case2: 「次へ」ボタンを何度も押した場合Case2: 「次へ」ボタンを何度も押した場合Case3: 検索する日時を変えて検索を行った場合

    • 本研究の意義ヒット数を利用した研究に,「信頼できるヒット数」の取得方法を提供する取得方法を提供する

    実験環境実験環境 Web Search API

    Crawlerキーワードを選択

    Crawler

    クエリを作成

    並列に検索

    結 整 保存結果の整理・保存

    並列検索のためのクエリ

    キーワードAに対して...

    51

    A : 1-10 A : 11-20 A : 21-30 A : 991-1000・・・

    オフセット1 オフセット11 オフセット21 オフセット991

    検証事項

    52

    検証事項

    , , について検証検証

    各社が提供しているAPIを経由して ヒット数を取得 各社が提供しているAPIを経由して,ヒット数を取得 検索設定は,各検索エンジンのデフォルト設定を利用

    検索に使用するクエリ 2007年12月のYahoo! JAPANクエリログ(検索頻度の上位10,000件のクエリログ)

    「情報爆発」[13]において提供頂いたデータ

    [13] 情報爆発時代に向けた新しいIT基盤技術の研究:http://www.infoplosion.nii.ac.jp/info-plosion/

  • CASE1:「検索」ボタンを何度も押した場合による変動

    53

    CASE1: 検索」ボタンを何度も押した場合による変動

    1.それぞれのクエリに対して,5分以内に100回検索を行う2 取得したヒット数から 変動係数を算出する2.取得したヒット数から,変動係数を算出する

    標準偏差 分散

    変動係数 グ を作成する

    変動係数 cv = 標準偏差平均 平均

    =分散

    3.変動係数でヒストグラムを作成する

    CASE1 :検証結果54

    rangeFrequency

    Google Bing Yahoo!cv = 0.0% 9,977 699 9,096

    0.0% < cv

  • CASE 3:検索日時の変化によるヒット数の変動

    57

    CASE 3:検索日時の変化によるヒット数の変動

    • 2009 10/11から 12/12の約二ヵ月間,10,000個のクエリについて毎日ヒット数を取得

    {HitCount(10/11) HitCount(10/12) HitCount(12/12)}{HitCount(10/11),HitCount(10/12),…,HitCount(12/12)}

    • 10/11のヒット数に対する変動率ベクトルを算出)12/12()12/10()11/10( HitCountHitCountHitCount })11/10()12/12(,...,

    )11/10()12/10(,

    )11/10()11/10({

    HitCountHitCount

    HitCountHitCount

    HitCountHitCount

    算出した変動率ベクトルをk m nsクラスタリング• 算出した変動率ベクトルをk-meansクラスタリング‐利用する特徴量はコサイン類似度

    CASE3 :検証結果58

    Googlek=4

    BingBingk=5

    Yahoo! Yahoo! k=3

    まとめ:信頼できるヒット数とは59

    まとめ 信頼できる ット数とは

    次のような場合に信頼できるヒット数が得られる 次のような場合に信頼できるヒット数が得られる

    検索開始オフセットの変化に伴うヒット数の変動に対し

    ヒット数が恣意的に調整されておらず,かつ 検索開始オフセットが最も大きな値のときかつ,検索開始オフセットが最も大きな値のとき

    時系列によるヒット数の変動が「安定期」(1週間で30%以上

    時間経過に伴うヒット数の変動に対し

    時系列によるヒット数の変動が「安定期」(1週間で30%以上変化しない)に入っている場合

    検索エンジンの信頼性について検索エンジンの信頼性について

    ユーザの立場としてできることランキングランキング

    調べ物をする際には、必ず複数の検索エンジンを用いる

    特にサーベイでは必須特にサ ベイでは必須

    ランキングは、検索エンジン間でも大きく異なるのはもちろん、日々変動していることを念頭におくろん、 変動して る を念頭 おく

    検索結果数検索結果数をもって「どちらが有名か」を判断する場合に検索結果数をもって「どちらが有名か」を判断する場合には、必ず「次へ」をクリックして、最後に表示される検索結果数を信頼する

    検索結果数は日々変動しているので、できれば1週間程度の期間、調査することが望ましい。

    60

  • 5. 新しい検索エンジンと未来

    61

    2020年のSEARCHは?(WSDM2008)2020年のSEARCHは?(WSDM2008)

    従来の検索ボックス (ソーシャル or 人間)パワーサーチ(ソ シャル 人間) ワ サ チ

    Yahoo!JAPAN 知恵袋 OKWave

    Machine Reading= Information Extraction + Tractable Interface

    Text Runner 自然言語サーチ自然言語サ チ

    セマンティックWeb

    true knowledge(ケンブリッジ大学) Powerset

    これを区別できますか?これを区別できますか?

    Book by children Book for children Book of Book of

    ①TEXT RUNNER①TEXT RUNNER

    大学教授

    2020年はMachine

    ワシントン大学教授 Oren Etzioni氏 2020年はMachine

    Readingの時代 Machine Reading = Machine Reading =

    Information Extraction + Tractable Interface

    KnowItAllプロジェクト 1億のWebページから5 1億のWebペ ジから5億の文を抽出し利用

  • HUMAN READING V S MACHINE READINGHUMAN READING V.S. MACHINE READING

    http://turing.cs.washington.edu/papers/SSS07EtzioniO.pdf

    TEXTRUNNER SEARCHTEXTRUNNER SEARCH

    パターン「Thomas Edison * invent/invented/invents *」を探す

    TEXTRUNNERに関する補足TEXTRUNNERに関する補足

    コーパスはセレクトされたものが重要であり、Webページをそのまま利用することはできない。

    ユーザからのクエリに対してオンザフライで知識を抽出する。

    事前のタグは不要であり、(arg1, relation, arg2)の関係を自動的に見つける.

    推論の実現 (Turing, born in, London) (london, part of England) →

    (Tuning born in England) (1,R,2) (1,R,2’)(2,R’,4),(2’,R’,4)であれば2=4と推定するる。

    信頼度計算 異なる表現の分布をチェック 異なる表現の分布をチェック

    ②POWERSETの出力結果②POWERSETの出力結果

  • POWERSETPOWERSET

    2008/5/11 に一般向けリリース

    WikipediaとFreebaseのデータを利用

    検索例1検索例1

    検索例2検索例2 検索例3検索例3

  • 検索例4検索例4 検索例5検索例5

    著作権に配慮し削配慮し削

    検索例5検索例5

    著作権に配慮し削配慮し削

    POWERSETPOWERSET

    自然言語処理をしているようには思えず。

    パタ を抽出し るにすぎな の は?パターンを抽出しているにすぎないのでは?

    TextRunnerと似たテクニックの利用 TextRunnerと似たテクニックの利用

  • ③TRUE KNOWLEDGE③TRUE KNOWLEDGE TRUE KNOWLEDGETRUE KNOWLEDGE

    知識ベースの量が少なく、多くの質問に回答できずできず。

    9907万件のfacts件

    ④GOOGLE: JEFFREY DEAN氏による未来80

    ④GOOGLE: JEFFREY DEAN氏による未来(WSDM2009)

    Future Directions Translate all the world’s documents to all the world’s languages(全

    世界の言語で全世界のドキュメントを検索!)世界の言語で全世界のドキュメントを検索!) continuously improving translation quality large-scale systems work to deal with larger and more complex language

    models著作権に配慮し削 models

    (e.g.) to translate one sentence ⇒ ~1M lookups in multi-TB model ACLs(Access Control Lists) in Information Retrieval Systems(アク

    セスコントロ ル)

    配慮し削除

    セスコントロール) best solution for doc shared with 10 people is different than for doc shared

    with the worldsharing patterns of a document might change over time sharing patterns of a document might change over time

    Automatic Construction of Efficient IR Systems(パラメータチューニング)

    (半構造デ Information Extraction from Semi-structured Data(半構造データ)

    http://labs.google.com/papers.html

  • ⑤WOLFARMALPHA(ウルフラムアルファ)⑤WOLFARMALPHA(ウルフラムアルファ)

    計算知能エンジン(computational knowledge engine)engine) 情報系大学生なら一度は使ったことのある

    Mathematica(数式処理システム)を世に送り出したが会社であるwolfram research社が2009/5/18から公開

    ウルフラムアルフウルフラムアルファ

    38000CPU(5つのデータセンターに分散) データ

    10兆以上のデ タ 10兆以上のデータ データの一部はWebからとっているが、ほとんどのデータはちゃんとした

    データ提供元から得ている「source information」ボタンで表示。万を超えるアルゴリズムと デル 5万を超えるアルゴリズムとモデル

    1000を超えるドメイン(分野)をハンドル 現在は英語のみ(将来は多言語対応) 現在は英語のみ(将来は多言語対応)

    プログラム 500万行に及ぶMathematicaのコード

    開発 Stephen Wolframをリーダとした100人程度のチーム 2005年に開発を開始 2005年に開発を開始

    ウルフラムアルフ 関連記事ウルフラムアルファ関連記事

    Wolfram Alpha Launch Starts Tonight at 5pm Pacific: Here is What You Need to KnowPacific: Here is What You Need to Know http://www.readwriteweb.com/archives/wolfram_alpha

    _launch_starts_tonight.php

    http://wiredvision.jp/news/200905/2009051122.html http://www.wired.com/epicenter/2009/05/how-the- http://www.wired.com/epicenter/2009/05/how the

    wolfram-alpha-search-engine-could-save-google/

    ⑥BINGアクセス元を

    ⑥BING元

    認識している

    84

  • ⑦NAVER⑦NAVER検索結果数が

    表示されない!

    85

    各種参考文献は http://www.yama.info.waseda.ac.jp/~yamana/本日の講演資料はhtt // i f d j / /KOUEN/ 100621 df

    ENDhttp://www.yama.info.waseda.ac.jp/~yamana/KOUEN/ewe100621.pdf

    END

    86