Hadoop Conference Japan 2011 Fallに行ってきました

Hadoop Conference Japan 2011 Fallに行ってきました

非イケメン枠担当

@just_do_neet

1

Hadoop Conference Japan 2011 fall

• 2011/9/26(月) 汐留で開催：http://hadoop-conference-japan-2011-fall.eventbrite.com/

• 国内最大規模のHadoopに関するカンファレンス：約1000人の来場者が参加：しかも無料

• 海外有力コンサル会社３社の偉い人が揃い踏み：Cloudera、HortonWorks、MapR

• 日本の会社の活用事例なども：NTTデータ、リクルート、mixi、Yahoo！などなど

2

http://hadoop-conference-japan-2011-fall.eventbrite.com/

http://hadoop-conference-japan-2011-fall.eventbrite.com/

会場の風景http://itpro.nikkeibp.co.jp/article/NEWS/20110926/369421/?SS=imgview&FD=-821521671&ST=cloud

3

http://itpro.nikkeibp.co.jp/article/NEWS/20110926/369421/?SS=imgview&FD=-821521671&ST=cloud

http://itpro.nikkeibp.co.jp/article/NEWS/20110926/369421/?SS=imgview&FD=-821521671&ST=cloud

会場に飾られていたバルーン

4

無料で提供されたランチボックス（僕は二箱食べました）

5

書籍購入の特典でゲットしたHadoop本のTシャツ

6

Hadoopについて

7

• Apache Software Foundationから提供されているOSS

• 特徴は以下ふたつ

•複数のマシンを使ってものすごい大量の処理を実行する:MapReduce

•複数のマシンを使ってものすごい大量のデータを保存する:HDFS/HBase

Hadoopとは何か？

8

• Googleの内部で使われているシステムを参考に開発される：GFS(ACM ’03) “The Google File System” → HDFS

：MapReduce(OSDI ’04) “Simplified Data Processing on Large Clusters” → MapReduce

：BigTable(OSDI ’06) “A Distributed Storage System for Structured Data” → HBase

• 元Yahoo! Inc.（現在はClouderaに所属）のDoug CuttingさんがGoogle論文を参考に2004年頃にJava版OSSとして開発：”Hadoop”はDougさんの子供が好きだった象の　ぬいぐるみの名前らしい。

Hadoopとは何か？

9

• 開発当初は、検索インデックス構築のために使用されていたらしい。：大量のページをクローリングするため：クローリングした大量のデータからindexを構築するため：構築したindexやページ情報を保存するため etc...

※Googleでもそういう用途に使用されていたらしい※開発者のDougさんは元々LuceneやNutch（OSSの検索エンジン）の開発者でもある

• Hadoopが行えること（大量のデータの処理・保存）が非常に根源的で汎用性が高いため、バッチ処理系を中心に非常に多くのケースで使用されている。

• Hadoopを活用するための多くの派生プロダクトも存在

Hadoopの目的

10

Hadoopの関連プロダクト

• HBase：BigTableのクローン。大量のデータを扱えるデータベース。

• ZooKeeper：Chubbyのクローン的なもの。分散ロック・コーディネーション。

• Hive：HDFS上のデータをSQLライクの構文で取得するためのツール

• Flume：ログ収集処理を管理するツール

• and more....

11

• sorry, confidential...

社内での使用事例（現在進行中含む）

12

カンファレンスの内容

13

Hadoop Conference Japan 2011 Fall 共有

• Hadoopの次期バージョン（0.23）について

• 大手コンサル３社の発表内容について

• 日本での事例について

14

Hadoop 0.23 について

• 2011 Q4 beta版リリース予定：機能は全て実装済み：現在は性能測定、Integration Test（Pigとかとの連携テスト）等を実施中らしい

• 今までのHadoopの弱点を克服する：NameNodeのSPoFの解消 (NameNodeの複製に対応）

• MapReduce v2 : MapReduce以外の並列分散処理に対応：グラフ、クラスタリング等々：MPI(Cとかで有名な並列分散環境）、Giraph、Hama（分散Graph解析）、Spark（機械学習）、etc

• 性能の向上：MapReduceのshuffle処理を30%効率化 / 10,000台のクラスターで動作可能（現在は4000位）/ etc

15

参考：Giraph

• Hadoop上で大規模グラフ解析を行うフレームワークhttps://github.com/aching/Giraph：Graph？ → GoogleのPageRankみたいなものを解析する：GoogleのPregel(SIGMOD ’10)のようなものを目指しているらしい

• BSP(Bulk Synchronous Parallel）に対応

16

https://github.com/aching/Giraph

https://github.com/aching/Giraph

参考：Spark

• Scalaで書かれている並列環境向けの機械学習フレームワークhttp://www.spark-project.org/：機械学習？ →過去の傾向や分布からルールや判断基準を自動的に学習する　（ex.スパムフィルター）

• Mesosと呼ばれているフレームワーク上で動作する事を前提に開発http://www.mesosproject.org/：今後はHadoopや他のシステム上でも動作？

17

http://www.spark-project.org/

http://www.spark-project.org/

http://www.mesosproject.org/

http://www.mesosproject.org/

H系大手コンサル３社

• Clouderahttp://www.cloudera.com/：独自のディストリビューションや派生OSSを提供(CDH、Sqoop、Hue等々）：老舗。日本での知名度は一番高い

• HortonWorkshttp://www.hortonworks.com/：Yahoo! Inc.のHadoopチームがスピンアウトして設立

• MapRhttp://www.mapr.com/：Hadoopを独自拡張した商用パッケージを提供

• 三社の共通点：Hadoopのコミッターを擁する。：サポート、トレーニングなどがビジネスの主体

18

http://www.cloudera.com/

http://www.cloudera.com/

http://www.hortonworks.com/

http://www.hortonworks.com/

http://www.mapr.com/

http://www.mapr.com/

H系コンサル：Cloudera

• 独自のディストリビューション（CDH）を提供：Linux系ならこちらを使ってインストールするのが便利。というか無いと死ねる。

• 自社作成のツールをOSSとして提供：Sqoop（SQL構文でHDFS上のデータを操作）、Hue（リッチなWeb Console）、etc..

• SCM Express：Webベースの画面をポチポチしていくと簡単にHadoopのインストール、設定が出来る：50ノードまでfree

• Cloudera Enterprise：リッチなマネジメントツール（Cloudera Management Suite）を提供

• 教育、サポートなどがビジネスの主体

19

H系コンサル：HortonWorks

• 元Yahoo! Inc.のHadoopコミッター22名が独立Hadoopへの貢献度（※ソースコミット数）では一番 (ﾄﾞﾔｧ：500,000行くらいコミットしてるらしい

• 出来たばかりの会社（2011/7設立）

• プレゼン中ではYahoo! Inc.での活用事例の話が主：トップページのカスタマイズ：Yahoo! Mail

：42,000台のHadoopクラスターを構築。研究用途のクラスターが８割、残りがサービス用。

• 会社名は「Horton the Elephant」からhttp://en.wikipedia.org/wiki/Horton_the_Elephant

20

http://en.wikipedia.org/wiki/Horton_the_Elephant

http://en.wikipedia.org/wiki/Horton_the_Elephant

H系コンサル：MapR

• 独自にHadoopを拡張した商用フレームワークを企業に提供：EMCにOEM提供し「Greenplum」という名で販売

：http://www.greenplum.com/

：日本でもリクルートが購入したらしい

• 独自技術を商用フレームワークに導入：HDFSの拡張（C++で独自分散ファイルシステムを作成。HDFSより速い）　：random read/write 対応　：アプリレベルでのNIC bonding対応　：ミラーへのトランザクショナルなsnapshotコピー etc..

：NFSなどにデータを書きこんでHadoop以外で直接データが参照できるように　：書き込んだデータを直接R言語などで解析

• OSSのHadoopプロジェクトに還元できるものは還元していくらしい

21

http://www.greenplum.com/

http://www.greenplum.com/

国内の事例：ノーチラス・テクノロジーズ

• 基幹業務システムにHadoopを導入した事例の紹介：会計、原価計算、人員の最適化（LSP） etc..

• バッチ処理向けのフレームワークとして「Asakusa Framework」をOSS提供：https://github.com/asakusafw

：DSLコンパイラ、モデルジェネレータ、テストスイートから形成される。

22

https://github.com/asakusafw

https://github.com/asakusafw

国内の事例：Yahoo! Japan

• サービスから横断的に使用できる基盤システムを構築しているその中でHadoopを使用：空間解析：地図の緯度経度情報と、住所の情報を結びつける（Geohashとマッチする情報をHadoopを使ってIterableに探索）：検索インデックスの作成（Twitterリアルタイム検索など）：検索結果のランキング算出（※ただし実際はMPIで作っているとか...）

23

まとめ

24

参加しての感想

• Hadoopは普及期に：大量データを扱うBtoC企業のコモディティ。使って当たり前。：周辺ビジネスも活発になってきている。：Hadoop 0.23（MapReduce v2）により様々な計算パラダイムがHadoopの上に。

• Hadoopが使える、だけでなく、Hadoopの上で何をするかが大事：Map/Reduce + Graphアルゴリズム、クラスタリング、機械学習。環境が整備されているということは多くの人が必要と感じているから。理解して使えるように。：BI、データマイニング、ログ解析だけでなく、サービスに直接関係する機能にも応用しよう。

25

ご清聴ありがとうございました

26

Technology

Hadoop Conference Japan 2011 Fallに行ってきました