Upload
advancedtechnight
View
1.628
Download
2
Embed Size (px)
DESCRIPTION
Hadoopソースコードリーディング第7回 Hadoop World 2011 New York 参加報告の発表資料です。「インフラとしてのHadoop」を、注目の3セッションを通して紹介します。
Citation preview
© Acroquest Technology Co., Ltd. All rights reserved.
Hadoop World 2011NYC
フィードバック~インフラとしての ~
Acroquest Technology阪本雄一郎、落合雄介
2011/11/28Hadoop ソースコードリーディング第 7 回発表資料
© Acroquest Technology Co., Ltd. All rights reserved. 2
目次
1. 自己紹介2. Hadoop World セッション内容の変化3. セッション紹介4. インフラとしての Hadoop
会場の Sheraton New York Hotel & Towers
© Acroquest Technology Co., Ltd. All rights reserved. 3
1. 自己紹介
阪本雄一郎 Acroquest Technology プロジェクトリーダーとして
サービスオーダシステムを開発 Flume による
ログ収集プラットフォーム構築を実施 HBase 検証案件実施
落合雄介 Acroquest Technology Hadoop 関連案件に従事
– MapReduce によるログデータ整形・解析– HBase 検証案件– ログ分析 Hadoop インフラ構築
© Acroquest Technology Co., Ltd. All rights reserved.
2. Hadoop World セッション内容の変化
4
昨年( Hadoop World 2010 )
Hadoopコンポーネント
利用事例30 セッション
Hadoop検証
5 セッション
今年( Hadoop World 2011 )
Hadoopコンポーネント
利用事例30 セッション
→Hadoop + α の組み合わせ事例をいくつか紹介します
Hadoopコアセッション
5 セッション
Hadoop連携
15 セッション
Hadoop検証
5 セッション
Hadoop連携
5 セッション
Hadoop (+周辺プロダクト)を単に使うだけでなく、OSS や独自 FW を組み合わせて利用する事例が増えてきた
© Acroquest Technology Co., Ltd. All rights reserved.
3. セッション紹介
I. R と Hadoop の融合II. Hadoop を使った衛星画像解析III. Hadoop をクラウド上に展開
5
© Acroquest Technology Co., Ltd. All rights reserved.
I. R と Hadoop の融合
6
The Powerful Marriage of R and Hadoop注目のセッションで、200 人の会場がいっぱいでした
© Acroquest Technology Co., Ltd. All rights reserved.
【 I. The Powerful Marriage of R and Hadoop】
I-1. 発表者概要
Revolution Analytics Founded in 2007 R 言語の商用利用に特化
David Champagne Principal Architect/Engineer for SPSS
– SPSS :統計パッケージソフト開発、2009 年 IBM が 12 億ドルで買収
7
© Acroquest Technology Co., Ltd. All rights reserved.
【 I. The Powerful Marriage of R and Hadoop】
I-2. R 言語とは
8
統計解析向けプログラミング言語 統計解析に適した命令体系を持つ 開発実行環境も含む
- R console : CUI- R Commander : GUI
世界中の R ユーザが「 CRAN ( Comprehensive R Archive Network )」でライブラリを提供
オープンソース
© Acroquest Technology Co., Ltd. All rights reserved.
【 I. The Powerful Marriage of R and Hadoop】
I-3. R 言語との連携の動機
9
R 言語は 200 万人以上のユーザを持つオープンソース統計言語
R プログラマが簡単に Hadoop 上のデータを扱い、 MapReduce で処理できるようにしたい
R を、 Hadoop 上で、 Hadoop の中身を意識せずとも動かせるようにしたい
© Acroquest Technology Co., Ltd. All rights reserved.
【 I. The Powerful Marriage of R and Hadoop】
I-4. アーキテクチャ
10
rhbaserhdfs
rmr
作った部分
© Acroquest Technology Co., Ltd. All rights reserved.
【 I. The Powerful Marriage of R and Hadoop】
I-5. rmr の特徴
11
Java を書くよりシンプル Hive, Pig ほどシンプルではなく、
より汎用的 プロトタイピングをしやすい
© Acroquest Technology Co., Ltd. All rights reserved.
【 I. The Powerful Marriage of R and Hadoop】
I-6. Hive と rmr の記述の違い
12
単純な集計では Hive の方がコード量は少ない・ Map Reduce の処理を 明示的に記せること・ Map, Reduce で、 R 言語の 関数を呼び出せることが特徴
男女のユニークユーザ数をそれぞれ求める処理
© Acroquest Technology Co., Ltd. All rights reserved.
【 I. The Powerful Marriage of R and Hadoop】
I-7. rmr における記述量
13
k-means : クラスタリングのアルゴリズムの一つ
クラスタリング: 複数のデータを持つ要素を、 特徴別のグループに分類する (購買意欲の高いユーザと それ以外のユーザを分類する、など)
rmr で大幅に コード量 = 実装の手間を削減!
R 言語に備わっているk-means のライブラリを使用可能なため
© Acroquest Technology Co., Ltd. All rights reserved.
【 I. The Powerful Marriage of R and Hadoop】
I-8. 大量データ統計処理の今後
R と Hadoop が組み合わさることで、Big Data の柔軟な解析への期待が高まる k-means クラスタリングの例のように、
統計的分析を簡易な記述で実現可能になる 統計処理の理論に慣れていないエンジニアにも
Big Data の分析が容易になる
14
© Acroquest Technology Co., Ltd. All rights reserved.
II. Hadoop を使った衛星画像解析
Indexing the Earth –Large Scale Satellite Image Processing Using Hadoop
15
How many planes in this image?
© Acroquest Technology Co., Ltd. All rights reserved.
【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】
II-1. 発表者概要
Skybox Imaging 衛星画像をもとに、映像解析・監視を
行う
Oliver Guinan Ground Systems 部の副部長 世界最大級のコンシューマ向け
インターネットアプリケーションを開発 16
© Acroquest Technology Co., Ltd. All rights reserved. 17
Hadoop をそのまま使っても遅いので、ネイティブコードを呼び出せるようにしまし
た!
端的に言うと・・・
【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】
II-2. 概要
© Acroquest Technology Co., Ltd. All rights reserved.
【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】
II-3. フレームワーク作成の動機
大量データの映像解析をしたい 衛星画像から送られてくるデータは 1TB/日 大量データを分散させて保持させたい→ Hadoop が使える。
画像解析ライブラリをそのまま使いたい しかし、 Hadoop 、 Java には弱点あり
ジョブ起動が遅い 科学計算ライブラリが不十分
18
画像解析ライブラリが使えるネイティブコードを呼び出した
い!
© Acroquest Technology Co., Ltd. All rights reserved.
【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】
II-4. アーキテクチャ
タスクの中でネイティブコード( C 言語)を呼び出す仕組みを構築
19
ココ
Busboy (バズボーイ):飲食店で、食器を下げたり皿洗いをしたりする人
© Acroquest Technology Co., Ltd. All rights reserved.
【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】
II-5. 業務特化の 1 つの解
Hadoop と自社フレームワークを組み合わせて、 高速処理+ネイティブライブラリ呼び出しを実現
既存の処理を Java で再実装することなく、C 言語などの既存の資産を使う
→Hadoop はあくまでインフラとして使う
20
© Acroquest Technology Co., Ltd. All rights reserved.
III. Hadoop をクラウド上に展開
Hadoop as a Service in Cloud
21
© Acroquest Technology Co., Ltd. All rights reserved.
【 III. Hadoop as a Service in Cloud】
III-1. 仮想化の要請
22
オペレーション、
メンテナンスの単純化
コスト低減 ニーズに応じた素早い対応
しかし、 Hadoopは一般的に仮想化と相性が悪いと言われている:
ディスクの分散、
ラックアウェアネス、 ・・・
© Acroquest Technology Co., Ltd. All rights reserved.
【 III. Hadoop as a Service in Cloud】
III-2. Big Data への対応で必要なのは Hadoop だけではない
23
Big Data 対応のための統合された基盤が求められている
・ Big Data のトレンドは、 Hadoop だけではない
・ Hadoop は他の技術と併用される: Big SQL, NoSQL, etc,…
・全てのインフラを統一したい
・共通のハードウェア基盤
・ハードウェア、ドライバの テストフェーズをなくしたい
・すでにあるチーム内で、制御、 診断、キャパシティマネジメントを こなしたい
© Acroquest Technology Co., Ltd. All rights reserved.
【 III. Hadoop as a Service in Cloud】
III-3. 参考: Disney の Data Management Platform
24
Disney は、 2008 年から仮想化、 2009 年から Hadoopに取り組んでいる。
2010 年には、Cloud Platform を構築し、全サービスのうち 60% のサーバイメージを仮想環境に移行した
Hadoop 環境は Disney Cloud Services とは別
Advancing Disney’s Data Infrastructure with Hadoop
Matt Estes, Disney
より
© Acroquest Technology Co., Ltd. All rights reserved.
【 III. Hadoop as a Service in Cloud】
III-4. 参考: Disney の Data Management Platform
25
2011 年の取り組みで、
Hadoop クラスタをData Management Platform として統一
Hadoop を使ったサービスを大規模に展開する企業も、仮想化に注目している
© Acroquest Technology Co., Ltd. All rights reserved.
【 III. Hadoop as a Service in Cloud】
III-5. ディスクの構成
26
扱いやすい
ローカルディスクを使うことで、HDFS の特性を生かす
NW IO がネックに
© Acroquest Technology Co., Ltd. All rights reserved.
【 III. Hadoop as a Service in Cloud】
III-6. vSphere を通したラックアウェアネス
27
Rack script を自動生成することで、問題を解決
Rack awareness :Hadoop は大量のネットワーク通信を行うため、通信量を減らせるようマシンの物理的配置を設定する。
ラックアウェアネスの考慮が必要な点は、仮想化を行う際の、 「どの物理ノードに乗っているか気にしなくて良い」という利点に矛盾する
© Acroquest Technology Co., Ltd. All rights reserved.
【 III. Hadoop as a Service in Cloud】
III-7. Muti-tenant への対応
28
Multi-tenant :1 つのクラスタの中で複数のシステムを構築・動作させる
巨大クラスタを占有するのと、クラスタを共有するのと、用途によって使い分ける
顧客の要請に応じた使いわけ
© Acroquest Technology Co., Ltd. All rights reserved.
【 III. Hadoop as a Service in Cloud】
III-8. クラウド上の Hadoop 構築で、柔軟な対応が可能に
Hadoop を仮想環境で動作させる仕組みができた
「 Hadoop だけは特別」ではない。他のプラットフォームと同様に、「クラウドに Hadoop を展開して利用する」というユースケースもあり得る
29
© Acroquest Technology Co., Ltd. All rights reserved.
4. インフラとしての Hadoop
Hadoop はインフラとなりつつある MapReduce で計算して終わり!な時代は過ぎた Hadoop をベースに OSS/フレームワークを組
み合わせて、新たな仕組みを構築する動きが出てきた
「目的」ではなく「手段」として Hadoop を使う 「大量データだから Hadoop をとりあえず使お
う」だと、 Hadoop のメリットは少ない 大量データを分析し役立てたいから Hadoop を使
う、と考えると、 Hadoop を最大限に生かすことができる 30
© Acroquest Technology Co., Ltd. All rights reserved. 31
ぜひ日本でも事例を増やしましょう!