©2009 Preferred Infrastructure Inc.
次世代サーチプラットフォーム Sedueミドルウェアとしての検索エンジンと、それを支えるPFIテクノロジー
1
(株)プリファードインフラストラクチャー
代表取締役社長
西川徹
会社紹介とSedueの概要
©2009 Preferred Infrastructure Inc. 2
会社概要
社名 株式会社 Preferred Infrastructure
(プリファード インフラストラクチャー)
設立 2006年3月
代表者 西川 徹
従業員数 14名
所在地 〒113-0033東京都文京区本郷7-2-2 本郷ビル10F
URL http://preferred.jp/
事業内容
独自ソフトウェアの開発・販売
検索
推薦(レコメンド)
広告配信
アドネットワークの運営
独自技術を生かした顧客・パートナーとの共同研究・共同開発
©2009 Preferred Infrastructure Inc. 3
• 代表取締役社長 西川 徹– 東京大学情報理工学系研究科コンピュータ科学専攻– 未踏ソフトウェア創造事業「抽象度の高いハードウェア記述言語」– 第30回ACM/ICPC世界大会19位
• 最高技術責任者 太田 一樹– 東京大学情報理工学系研究科コンピュータ科学専攻– 未踏ソフトウェア創造事業 「組み込み環境向け日本語入力環境」– 第32回ACM/ICPC世界大会13位
• 特別研究員 岡野原 大輔– 東京大学情報理工学系研究科コンピュータ科学専攻– 未踏ソフトウェア創造事業
「単語抽出法による次世代データ圧縮法の開発」「汎用的データにおける確率的言語モデルの抽出及びその利用」「文脈を利用した文書分類」(スーパークリエータ認定)
• その他、IPA未踏ソフトウェア創造事業、プログラミングコンテスト世界大会経験者が多数在籍
• アカデミック研究者とシステム開発エンジニアが共に技術を追求
メンバー
©2009 Preferred Infrastructure Inc. 4
会社ビジョン
世の中に必要とされている技術の中でも、特に難しいミッションを選び抜き、それに対する解を提供する。
大量のデータをハンドリングするインフラ・システムテクノロジ
情報流を把握・制御するためのアルゴリズム・コンセプト
情報の流れを加速する技術
©2009 Preferred Infrastructure Inc. 5
全文検索エンジン Sedue(既存バージョン)
Sedueエンジンは、弊社のファーストプロダクトであり、メインストリームプロダクトである。
スケーラブルで高速な分散型全文検索エンジン
圧縮接尾辞配列を利用した世界初の商用検索エンジン
インデックスを圧縮し、高速にオンメモリ検索
検索漏れが発生しない
リニアなスケールアップ
Sunマシン上の検証で128スレッドまで線形にスケール
容易なスケールアウト
インデックス作成、検索用ノードを無停止で追加
高い信頼性
カスタマイズ可能なランキング機能
©2009 Preferred Infrastructure Inc. 6
Sedueが実現するPlatform
©2009 Preferred Infrastructure Inc. 7
Enterprise Search
Web Search
構造的なデータ
データへのアクセシビリティ
データベースとの統合
多種多様なデータフォーマットへの対応
大規模データ処理
リアルタイム性
ログ分析
可用性
Sedue
Sedueの実現する方向性
検索エンジンの概念を汎用化し、RDBMSのようなミドルウェアとして確立させる
©2009 Preferred Infrastructure Inc. 8
汎用的なミドルウェアを目指すために
データ・システムに合わせて最適な構成を可能に
文書集合・ユーザーログを扱う様々な用途に対応する
柔軟なシステムアーキテクチャを実現するソフトウェア構成ハードウェアの特性に最適化したインデックスエンジンの開発
半構造化されたデータへの対応(次セッションで解説)レコメンデーションエンジンとの統合PFIが所有する各種検索技術の取り込み
©2009 Preferred Infrastructure Inc. 9
より洗練された検索エンジンアーキテクチャ
システムアーキテクチャは、進化するハードウェア・検索手法を柔軟に導入できるほどよく抽象化・階層化されていなければならない。
システムコンポーネント Sedueスタック
CSA
DRAM SSD
SA
HDD
N-gram
Scoring
分散クエリ
©2009 Preferred Infrastructure Inc. 10
PFIテクノロジとの統合推進
Internet
全コンテンツ
インデクシング
インデックス
検索
検索結果候補
スコアリング
検索結果ページ
クエリ入力
結果の選択
©2009 Preferred Infrastructure Inc. 11
PFIテクノロジとの統合推進
Internet
全コンテンツ
インデクシング
インデックス
検索
検索結果候補
スコアリング
検索結果ページ
クエリ入力
結果の選択
インデクシング
レコメンデーション用インデックス
レコメンデーションエンジンとの統合により、データレポジトリの統合を実現する。
©2009 Preferred Infrastructure Inc. 12
PFIテクノロジとの統合推進
Internet
全コンテンツ
インデクシング
インデックス
検索
検索結果候補
スコアリング
検索結果ページ
クエリ入力
結果の選択
ユーザーフィードバックの効果的な利用
様々なリソースを活用し、検索精度を高める。
©2009 Preferred Infrastructure Inc. 13
より本質的な部分への投資を可能に
インデックス保持・インフラ保持のコストを最小にし、サービスの「質」にかかわる部分へ集中できるようにする。
データ・システムに合わせて最適な構成を可能に
文書集合・ユーザーログを扱う様々な用途に対応する
サービスの要求に合わせた最適なシステム構成
文書管理・ユーザーログを一元化し、それに対し様々な操作を実現することができる。
©2009 Preferred Infrastructure Inc. 14
©2009 Preferred Infrastructure Inc.
13:20 – 14:00 全文検索エンジンSedue ~新機能の紹介~
太田一樹(最高技術責任者)
14:00 – 14:15 休憩
14:15 – 14:45 SSD向け全文検索エンジン
田中英行(エンジニア・SSDエンジン開発者)
14:45 – 15:25 レコメンデーションQ&A
岡野原大輔(フェロー)
徳永拓之(エンジニア)
本日の流れ
15