1 © Copyright 2014 Pivotal. All rights reserved. 1 © Copyright 2014 Pivotal. All rights reserved.
Pivotal HD 2.0 - 業界最高レベル SQL on Hadoop 技術「HAWQ」解説 -
2014年6月19日 Pivotalジャパン株式会社 技術統括部 松下 正之
2 © Copyright 2014 Pivotal. All rights reserved.
本日のアジェンダ � Pivotalについて
– 会社概要 – コンセプト – ソリューション・ポートフォリオ
� Pivotal HD 2.0 – Pivotal HD 2.0技術 – HAWQ性能検証結果報告 – HAWQデモ
� まとめ
3 © Copyright 2014 Pivotal. All rights reserved.
Pivotal について
4 © Copyright 2014 Pivotal. All rights reserved.
次世代エンタープライズPaaSのための新会社 Pivotal社始動(2013年4月1日)
2013年3億ドル 2017年10億ドル
出資比率
CEO ポール・マリッツ
従業員数 2,000人
売り上げ規模(計画)
5 © Copyright 2014 Pivotal. All rights reserved.
次世代のクラウド&ビッグデータアプリケーション
PaaS Platform
Big & FastData
Agile Dev
Data Science
ソフトウェアで抽象化されたデータセンター)
VMAX VNX Isilon Atmos
情報基盤 (インフォメーション・インフラ)
Data Domain
EMCグループの事業戦略 – 緩やかな水平協業 -
Open FW
エンタープライズPaaS クラウド、ビッグデータ/ファストデータ及び アジャイル開発、データ・サイエンス
ソフトウェア・デファインド・データセンター ハイブリッド・クラウド
エンド・ユーザー・コンピューティング
ソフトウェア・デファインド・ ストレージ バックアップ、セキュリティ 統合ストレージ管理(ViPR)
Pivotal Data Science Labs
6 © Copyright 2014 Pivotal. All rights reserved.
Pivotalのコンセプト
エンタープライズのお客様も、Google,Facebookと同様に・・・ 自ら膨大なデータを収集・分析し、早いスピードで市場に対応する
戦略アプリケーションの投入がビジネス競争上必須になる !!
コンシューマ・グレイド・エンタープライズ
Pivotalのコンセプト • お客様ビジネスのスピード促進のためのITの仕組みを提供 • 『コンシューマ・グレイド・エンタープライズ』への進化を支援 • 3rd Platform時代の製品技術と活用のための支援サービスを提供
7 © Copyright 2014 Pivotal. All rights reserved.
アプリケーションからデータが生成される
データを溜める データの分析・活用
アプリケーションで 分析結果を実装
Pivotalとは
Pivotalとは、、
このビジネスサイクルを迅速に回す仕組みをお客様と共に実現するための製品、サービスを提要
8 © Copyright 2014 Pivotal. All rights reserved.
クラウド
アプリケーション
プライベート・クラウド パブリック・クラウド バーチャル・
プライベート・クラウド
PaaS基盤
アジャイル開発 データサイエンス
開発フレームワーク & オープンソース
ビッグデータ
ファストデータ
データ
Pivotalのソリューション・ポートフォリオ
9 © Copyright 2014 Pivotal. All rights reserved.
クラウド
アプリケーション データ
PIVOTAL ONE
導入事例豊富な製品群とオープンソース戦略
10 © Copyright 2014 Pivotal. All rights reserved.
Pivotal HD 2.0
11 © Copyright 2014 Pivotal. All rights reserved.
ビッグデータ時代に求められる技術: HAWQ 吨听吀ー
吵呉吐
データ量
RDB
Oracle, DB2, MS SQL Server, MySQL, PostgreSQL ..
分散型RDB
Greenplum DB PureData, Teradata, Exadata...
Hadoop
Pivotal HD Cloudera, MapR, Hortonworks..
SQL on Hadoop
HAWQ Impala, Drill, Presto,..
12 © Copyright 2014 Pivotal. All rights reserved.
Ø Data Lake: データ処理基盤の基盤要素となるHDFSにデータを蓄積 Ø あらゆるデータ・要件に応じて処理エンジンを使い分ける
Pivotal データプラットフォーム・アーキテクチャ
アナリティック データマート
SQL処理
オペレーショナル インテリジェンス
イン・メモリ データベース
ラン・タイム アプリケージョン
HDFS
データ ステージング
データ管理
Pivotal データプラットフォーム
ストリーム インジェスチョン ストリーミング処理
Software-Defined Datacenter
New Data-fabrics ...ETC
イン・メモリ グリッド
Data Lake
13 © Copyright 2014 Pivotal. All rights reserved.
Pivotal HD 2.0 の国内販売開始(2014年6月2日)
14 © Copyright 2014 Pivotal. All rights reserved.
Pivotal HD 概要 • Pivotal HD 2.0
– Apache Hadoop 2.2.0 ベース – Apache Hadoop 2.2.0は、2.X系のGAリリースの位置付け – 処理全体のデータスループット効率化: YARN – 運用・: スナップショット / HDFS Federation / NFSv3によるデータアクセス
– HAWQ(HAdoop With Query、読み方: ホーク) – 性能:HDFSに対する標準SQLによる高速クエリ処理 – 連携:Hive, Hbase, Avro等 Hadoop データとの連携
– GemFire XD – 性能: ビッグデータ用のインメモリ・データストア
– 仮想化・エンタープライズストレージ対応
– Hadoop構成の VMWare 上での最適化や Isilonとの連携
15 © Copyright 2014 Pivotal. All rights reserved.
Pivotal HD 2.0 エンタープライズコンポーネント
HDFS
HBase Pig, Hive, Mahout
Map Reduce
Sqoop Flume
リソース管理 &
ワークフロー
Yarn
Zookeeper
Apache Pivotal追加機能
Command Center コンフィグ デプロイ モニター
管理
Spring XD
Pivotal HD 2.0 エンタープライズ
Spring
Oozie
Virtual Extensions
Graphlab, Open MPI
16 © Copyright 2014 Pivotal. All rights reserved.
管理・監視ツール Pivotal Command Center � PivotalHD用ウェブ管理コンソール
– クラスタ性能・健常性の監視 – クラスタストレージ状況の監視 – 各サーバへのドリルダウン監視 – 性能指標の表示(リアルタイム・トレンド) – MapReduceジョブの詳細監視 – YARN(MapReduce2.0)アプリケーションの監視 – HAWQクエリの監視
17 © Copyright 2014 Pivotal. All rights reserved.
Pivotal Command Center: ダッシュボード(1/2)
18 © Copyright 2014 Pivotal. All rights reserved.
Pivotal Command Center: ダッシュボード(2/2)
19 © Copyright 2014 Pivotal. All rights reserved.
Pivotal Command Center: MapReduceジョブモニタ
20 © Copyright 2014 Pivotal. All rights reserved.
HVEによる仮想基盤最適化 � 業界唯一VMware Hadoop バーチャルエクステンション(HVE)対応ディスト
リビューション – 動作確認済み – vSphere環境用に最適化
▪ HDFSレプリケーション時に可用性面で最適なデータ配置先ノード(VM)を決定 ▪ データ配置用ノード(VM)の構成に基づき、性能面で最適な計算用ノード(VM)を決定 ▪ 計算用ノードの動的スケールに対応
� Vmware Serengeiによる PivotalHD システムの vSphere上へのデプロイ
� Pivotal社・Vmware社の緊密な協業
21 © Copyright 2014 Pivotal. All rights reserved.
HVEによるレプリカ配置ポリシーの拡張
従来のデータレプリケーション (HVE無効時)
物理サーバ1
物理サーバ2
物理サーバ3
物理サーバ4
1
2 3
ラック0 ラック1
HVE有効時の データレプリケーション
1 2
3
ラック0 ラック1
仮想マシン 1 ブロックレプリケーション
物理サーバ1
物理サーバ2
物理サーバ3
物理サーバ4
物理サーバ障害時、複数の仮想マシンが停止することにより、複数のデータレプリケー
ションが停止する可能性有り。
物理サーバ上の仮想マシンには常に1つのデータレプリケーションしか構成されないため、物理サーバ障害時も他物理サーバ上
のデータレプリカによる冗長化を維持。
22 © Copyright 2014 Pivotal. All rights reserved.
• HAWQがもたらすHadoopとデータベースの融合 • GemFire XDがもたらすHadoopとインメモリデータグリッドの融合
Pivotal HD 2.0 製品構成
HDFS
HBase Pig, Hive, Mahout
Map Reduce
Sqoop Flume
リソース管理 &
ワークフロー
Yarn
Zookeeper
Apache Pivotal追加機能
Command Center コンフィグ デプロイ モニター
管理
Spring XD
Pivotal HD 2.0 エンタープライズ
Spring
Xtension フレームワーク
カタログ サービス
クエリオプティマイザ
ダイナミックパイプライニング
ANSI SQL + アナリティクス
HAWQ – アドバンスドデータベースサービス
分散 イン・メモリ
ストア
クエリトランザクション
インジェスチョン処理
Hadoop Driver – パラレルコンパクション
ANSI SQL + イン・メモリ
GemFire XD – リアルタイムデータベースサービス
MADlib アルゴリズム
Oozie
Virtual Extensions
Graphlab, Open MPI
23 © Copyright 2014 Pivotal. All rights reserved.
Hadoop処理をより高速に
OS
HDFS
MapReduce
OS
GPDB データ 処理層
データ IO層
OS
HDFS
HAWQ
• Cプロセスによる低いオーバヘッド
• 中間データのオンメモリ処理
• Javaプロセスによる高いオーバヘッド
• 中間データのオンディスク処理
HDFSレイヤーにIO処理時のオーバヘッド
• Cプロセスによる低いオーバヘッド
• 中間データのオンメモリ処理
24 © Copyright 2014 Pivotal. All rights reserved.
HAWQを支える GreenplumDB 10年の実績 • GreenplumDBの主要テクノロジーを HAWQ で採用
• 標準 SQL 対応
• 堅牢なクエリオプティマイザ
• ローストア・カラムストア両方への対応
• 圧縮
• 分散格納
• マルチレベルパーティショニング
• パラレルーロード・アンロード
• 高速データ再分散
• SELECT
• INSERT
• JOIN
• 統計解析関数(MADlib)
• ビュー
• 外部表
• リソースマネジメント
• セキュリティ
• 認証
• 管理・監視
• ODBC/JDBC対応
25 © Copyright 2014 Pivotal. All rights reserved.
User intelligence 4.2 198
Sales analysis 8.7 161
Click analysis 2.0 415
Data exploration 2.7 1,285
BI drill down 2.8 1,815
47X
19X
208X
476X
648X
Pivotal HD HAWQベンチマーク
単位:秒
User intelligence 4.2 37
Sales analysis 8.7 596
Click analysis 2.0 50
Data exploration 2.7 55
BI drill down 2.8 59
単位:秒
9X
69X
25X
20X
21X
26 © Copyright 2014 Pivotal. All rights reserved.
HAWQ クエリオプティマイザ
� コストベースのオプティマイザに
より、最適な実行プランを選択 � DB処理(スキャン、ジョイン、ソ
ート、集計等)に対してコストを算出 � セグメント間通信(“モーション”)も
オプティマイザが指示
PHYSICAL EXECUTION PLAN FROM SQL
Gather Motion 4:1(Slice 3)
Sort
HashAggregate
HashJoin
Redistribute Motion 4:4(Slice 1)
HashJoin
Hash Hash
HashJoin
Hash
Broadcast Motion 4:4(Slice 2)
Seq Scan on motion
Seq Scan on customer
Seq Scan on lineitem
Seq Scan on orders
27 © Copyright 2014 Pivotal. All rights reserved.
HAWQ高度分析機能の標準実装
• パラレル処理による高い性能 • SQLインタフェイス • 分析関数 MADLib の標準実装
– 線形回帰 – ロジスティック回帰
– 多重ロジスティック回帰
– K平均 – アソシエーションルール – PLDA
28 © Copyright 2014 Pivotal. All rights reserved.
Pivotal eXtension Framework(PXF) � HAWQから外部データに対して、クエリ
アクセスを可能にする拡張フレームワーク
� HDFS上のファイル、Hiveテーブル、Hbaseテーブルのデータなどにアクセスするためのビルトイン・コネクタ
– HDFS/Hive/HBase/AVRO/GemFireXD
� 拡張フレームワークによる、連携対象データの追加も可能
– ユーザは他のデータストアにアクセスするためのオリジナル・コネクタ(Java)を作成することも可能
HDFS HBase Hive
Xtension Framework
29 © Copyright 2014 Pivotal. All rights reserved.
HAWQ性能検証結果報告 (プロジェクタ表示のみスライド含む)
30 © Copyright 2014 Pivotal. All rights reserved.
導入事例:MicroAd PHD/HAWQによるビッグデータ分析とツール統一 PivotaHD/HAWQは、ODBCやJDBCによる接続が可能 • お客様がお使いのBI/BAツールを Hadoop と連携させることが可能 • HAWQ は GreenplumDB を Hadoop 用に改良したものでアクセスインタフェイスは GreenplumDB と同じ • GreenplumDBとHAWQ(Hadoop)にアクセスするためのツールを統一も実現可能
背景: • IBM PureData/SPSSの分析基盤を構築済み • ログデータの格納領域はHadoop(CDH無償版)を使っ
ている 課題: • 使用している分析ツールからHadoopにアクセスしたい • HIVEによる検索性能が遅く現実的には利用不可能 • 分析対象データが大きい場合にはHIVEクエリがエラー
PHD/HAWQ PoC: • SPSSとHAWQによる分析が可能であることを確認
• HIVEと比較して70倍近い高い性能を記録
結果: • PivotalHD/HAWQの採用決定
• できなかった分析ができるように
背景・課題 結果
31 © Copyright 2014 Pivotal. All rights reserved.
Pivotal HD/HAWQがもたらす価値
� インタラクティブな分析環境の提供 – Hiveと比較して数十倍から数百倍の性能向上
� 既存資産(プログラムとスキル)の活用 – ANSI SQL92,98,2003への対応
� HIVE,Hbase,Avro等Hadoopデータへの透過的クエリアクセス
� Hadoop/DB間のデータ移動が不要
� データ二重持ちコストの削減 – HDFS上への全データの統合
32 © Copyright 2014 Pivotal. All rights reserved.
HAWQデモ
33 © Copyright 2014 Pivotal. All rights reserved.
デモメニューと構成 � Hive実行
� Pivotal Command Center紹介
� HAWQ機能 – Pivotal eXtension Framework – HAWQからHiveへのアクセス
� HAWQ vs. Hive性能簡易比較
� ソフトウェア
– CentOS 6.4 64bit – PHD-2.0.0.0 – HAWQ 1.2.0.0
� ハードウェア
MacBook Pro
CPU 2.6GHz(4Core) Intel Core i7
Memory 16GB
Disk 500GB フラッシュストレージ
34 © Copyright 2014 Pivotal. All rights reserved.
まとめ
35 © Copyright 2014 Pivotal. All rights reserved.
Pivotalが考える次世代統合分析基盤に必要な ITアーキテクチャとその技術要素
セントラルDWH データマート
BI/BA
Pivotal Greenplum Database / Pivotal DCA
構造化データ
生産情報
売上情報
・・・
非構造化データ
顧客情報
ステージング
・・・
・・・
アクセスログ メール・Webコンテンツ M2M 音声 画像・映像 SNS
Pivotal HD (Hadoop)
構造化処理
ETL 処理
DWH
統合分析基盤(Unified Analytics Platform)
・・・
経営者・管理者
業務部門
分析者・情報システム部門
センサデータ等のリアルタイム取り込み
HDFS上のデータに対しての分析クエリ実行
インメモリ技術によるリアルタイム分析
高度分析専門者のための先進分析関数・連携イン
ターフェースの提供
HDFSによる様々なデータの効率的な格納
シームレスなデータ連携
スケーラブル・アジャイルな基盤
36 © Copyright 2014 Pivotal. All rights reserved.
リアルタイム処理(これから)
メッセージ キュー受信
Twitter ストリーム受信
TCPソケット受信
①ストリームデータの分割 ②データの処理(フィルタ、カウントなど)
ネットワーク パケット受信
:
ストリームデータ処理: 1) 連続的に生成されるデータを 2) ある単位に順次分割し、 3) 順次処理を行う仕組み
つまり溜めずに処理!
37 © Copyright 2014 Pivotal. All rights reserved.
• HAWQがもたらすHadoopとデータベースの融合 • GemFire XDがもたらすHadoopとインメモリデータグリッドの融合
Pivotal HD 2.0 製品構成
HDFS
HBase Pig, Hive, Mahout
Map Reduce
Sqoop Flume
リソース管理 &
ワークフロー
Yarn
Zookeeper
Apache Pivotal追加機能
Command Center コンフィグ デプロイ モニター
管理
Spring XD
Pivotal HD 2.0 エンタープライズ
Spring
Xtension フレームワーク
カタログ サービス
クエリオプティマイザ
ダイナミックパイプライニング
ANSI SQL + アナリティクス
HAWQ – アドバンスドデータベースサービス
分散 イン・メモリ
ストア
クエリトランザクション
インジェスチョン処理
Hadoop Driver – パラレルコンパクション
ANSI SQL + イン・メモリ
GemFire XD – リアルタイムデータベースサービス
MADlib アルゴリズム
Oozie
Virtual Extensions
Graphlab, Open MPI
38 © Copyright 2014 Pivotal. All rights reserved.
アプリケーション
Analytics Apps
Carrier Services
Online Apps
Mobile Apps
Contents Services
Device Services
クライアント
将来構想:Pivotalデータプラットフォーム全体像
セントラルDWH データマート 構造化
データ
売上 情報
顧客 情報
生 データ
Hadoop
ETL 処理
DB
商品 マスタ
マシン データ
ETL 処理
GPロードによる 高速双方向連携
HadoopデータへのSQLアクセス
HAWQ高速ロード Hadoop Sqoop/Flume
GemFire XDによる モデル更新
GemFire 超低レイテンシ検索
GemFireの リアルタイムロード
GemFire XDの Hadoop蓄積 GPDBによる
高速分析
GemFire リアルタイム フィードバック
39 © Copyright 2014 Pivotal. All rights reserved.
「データ・レーク」型分析プラットフォームの必要性
スケールアップ型 分析プラットフォーム
スケールアウト型 分析プラットフォーム
• 分析処理量が増加すると パフォーマンス劣化
• 分析処理量増加に伴い 増加する管理コスト
• 投資に見合わない拡張性と パフォーマンス
• データの種類ごとに異なる 分析プラットフォーム
• 分散処理により大規模分析が可能 • 高いコストパフォーマンス • スケールアウトによる柔軟な拡張
– 必要な時に必要なだけ拡張 – 投資に見合った確実な性能向上
• 構造化・非構造化データ分析のスムーズな連携
従来型アーキテクチャからの転換
A NEW PLATFORM FOR A NEW ERA