38
Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks 2015/10/15 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Yifeng hadoop-present-public

Embed Size (px)

Citation preview

Page 1: Yifeng hadoop-present-public

Hadoopの今とこれから

Yifeng Jiang Solutions Engineer, Hortonworks

2015/10/15

© Hortonworks Inc. 2011 – 2015. All Rights Reserved

Page 2: Yifeng hadoop-present-public

Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

自己紹介

蒋 逸峰 (Yifeng Jiang)•  Solutions Engineer, Hortonworks•  Apache HBase本の作者•  ⽇本に来て10年経ちました…•  趣味は⼭登り•  Twitter: @uprush

Page 3: Yifeng hadoop-present-public

Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Page 4: Yifeng hadoop-present-public

Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Hadoopコミュニティのアクティビティ

コード⾏数の増加http://ajisakaa.blogspot.jp

Page 5: Yifeng hadoop-present-public

Hortoworksのオープンリーダーシップ

組織毎のコード貢献(2014年)

Hortonworks

Page 6: Yifeng hadoop-present-public

Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HortonworksのApache コミュニティに対する影響力

コミッターの多くがHortonworks社員 -- Apache® Hadoop™プロジェクトの 全コミッターの1/3、および他の重要プロジェクトのコミッターの大多数を占める

Hortonworksコミッターの役割 Open Enterprise Hadoopの革新と拡張

Hadoopロードマップに対する影響力 リーダーを通じて、重要な要件をコミュニティに 伝達

A PA C H E H A D O O P の コ ミ ッ タ ー

Page 7: Yifeng hadoop-present-public

About Hortonworks

顧客 •  556 のお客様 (2015年8月5日時点) •  2015年2期に119 新規お客様追加 •  NASDAQに上場(HDP)

Hortonworks Data Platform • 完全にオープンなマルチテナント プラットフォーム。あらゆるデータ、あらゆるアプリ。

• 一貫したエンタプライズ サービス:セキュリティ、オペレーション、ガバナンス

お客様のためのパートナー • オープンソース コミュニティのリーダー、エンタプライズ要件を満たすための革新に注力

• 比類のないHadoopのサポートサブスクリプション

Founded in 2011

Original 24 architects, developers, operators of Hadoop from Yahoo!

740+ E M P L O Y E E S

1350+ E C O S Y S T E M

P A R T N E R S

Page 8: Yifeng hadoop-present-public

Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成やコストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込まれている。

Social Mapping

Payment Tracking

Factory Yields

Defect Detection

Call Analysis

Machine Data

Product Design M & A

Due Diligence

Next Product

Recs

Store Design

Risk Modeling

Ad Placement

Proactive Repair

Disaster Mitigation

Investment Planning

Inventory Predictions

Customer Support

Sentiment Analysis

Supply Chain

Ad Placement

Basket Analysis Segments

Cross- Sell

Customer Retention

Vendor Scorecards

Optimize Inventories

OPEX Reduction

Mainframe Offloads

Historical Records

Data as a

Service

Public Data

Capture

Fraud Prevention

Device Data

Ingest

Rapid Reporting

Digital Protection

Page 9: Yifeng hadoop-present-public

Hortonworks Data Platform (HDP)

Open Enterprise Hadoop

Page 10: Yifeng hadoop-present-public

Open Enterprise Hadoop

オープン

相互運用性

一元化

万全の対応

Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

Page 11: Yifeng hadoop-present-public

Open Enterprise Hadoop

Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

相互運用性

一元化

万全の対応

オープン

Page 12: Yifeng hadoop-present-public

Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

完全にオープンなHortonworks Data Platform

リスクの解消 完全なオープンソースであるApache技術を提供することで、ベンダー固定化のリスクを解消

コミュニティイノベーションの最大化 数百社の企業の数百人の開発者により、 コミュニティイノベーションを最大化

シームレスな統合 共同エンジニアリングの取り組みを通して、 他の先進技術を統合

コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化

イ ノ ベ ー シ ョ ン の優 位 性

独自の HADOOP

時間

イノ

ベー

ショ

オープンコミュニティ

Page 13: Yifeng hadoop-present-public

Open Enterprise Hadoop

Page 13 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

相互運用性

万全な対応

オープン

一元化

Page 14: Yifeng hadoop-present-public

YA R N データオペレーティングシステム

オペレーション セキュリティ

ガバナンス

スト

レー

ジ ス

トレ

ージ

機械学習 バッチ

ストリーミング

インタラクティブ

検索

プラットフォーム一元化 オペレーション、ガバナンス、セキュリティ

多様なアプリケーション 単一クラスタで同時実行

データ取り込みの最大化 ローフォーマットかどうかに関係なく、新旧のソースに対応

ビッグデータ資産の共有 すべての事業部門、機能部門、ユーザー間での共有

YARN ベースのアーキテクチャによるプラットフォーム一元化

Page 15: Yifeng hadoop-present-public

Open Enterprise Hadoop

万全な対応

オープン

相互運用性

一元化

© Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

Page 16: Yifeng hadoop-present-public

最大限の柔軟性を提供

あ ら ゆ る デ ー タ 新旧のデータセット

あ ら ゆ る ア プ リ ケ ー シ ョ ン 複数のデータ分析エンジン

あ ら ゆ る 場 所 あらゆる環境に対応

バッチ

インタラクティブ

検索

ストリーミング

機械学習

クリック ストリーム センサー

ソーシャル モバイル

ジオ ロケーション

サーバ ログ Linux Windows

クラウド オンプレミス

Page 17: Yifeng hadoop-present-public

業界標準との同期

エコシステム相互運用性の向上 Hortonworksが立ち上げたOpen Data Platform(ODP)イニシアティブの一環

選択肢の開放 HDPと統合された複数のベンダーのコンポーネントを選択可能

無駄な当て推量の解消 システムバージョンの調整を行う必要があるアーキテクトに対するメリット

HDP

Apache Hadoop対応 オープン

プラットフォーム

Pivotal HD

IIP Apache Hadoop

Apache Ambari

O D P コ ア

Page 18: Yifeng hadoop-present-public

エコシステムとの統合

パートナー

Page 19: Yifeng hadoop-present-public

Open Enterprise Hadoop

Page 19 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

オープン

一元化

相互運用性

万全な対応

Page 20: Yifeng hadoop-present-public

信頼できるガバナンス

データ管理 データライフサイクル全般における管理

メタデータによるモデリング ハイブリッドアプローチにより総合的なデータリネージが実現

相互運用ソリューション 共通のメタデータストアにより、Hadoopエコシステム全体で相互運用が可能

オペレーション セキュリティ

GOVERNANCE ガバナンス

YA R N データオペレーティングシステム

スト

レー

ジ ス

トレ

ージ

機械学習 バッチ

ストリーミング

インタラクティブ

検索

Page 21: Yifeng hadoop-present-public

Apache Atlas – データガバナンスのための基盤

Rest API Atlasサービス、 HDPコンポーネント、外部ツールへの柔軟なアクセスが可能

SQLのようなドメイン特化型言語を使った検索 キーワード、ファセット、フルテキストによる検索

データリネージとスキーマ

HiveServer2上のすべてのSQLランタイムアクティビティを取得 エクスチェンジ 既存のメタデータのインポートと、ダウンストリームシステムへのメタデータのエクスポート

Apache Atlas

ナレッジストア

監査ストア

モデル 型システム

ポリシールール 分類

タグベースのポリシー

データライフサイクル管理

リアルタイムのタグベースアクセス制御

REST API

サービス

検索 リネージ エクスチェンジ

ヘルスケア

HIPAA HL7

l金融

SOX Dodd-Frank

エネルギー

PPDM

小売業

PCI PII

その他

CWM

Page 22: Yifeng hadoop-present-public

YA R N データオペレーティングシステム

OPERATIONS セキュリティ

ガバナンス

スト

レー

ジ ス

トレ

ージ

機械学習 バッチ

ストリーミング

インタラクティブ

検索

安定した運用

一元化 Hadoopクラスタの管理・監視

自動プロビジョニング Cloudbreak APIにより、オンプレミスかクラウドのいずれかの環境に数分でクラスタをプロビジョニング

マネージドサービス ダッシュボードとアラート機能により、高可用性と一貫したライフサイクル管理を提供

オペレーション

Page 23: Yifeng hadoop-present-public

包括的なセキュリティ

包括的なセキュリティ プラットフォームアプローチによるセキュリティ

暗号化 保存データと移動中のデータの暗号化

管理の一元化 セキュリティポリシーとユーザー認証の管理

きめ細かな承認 データアクセスを管理

オペレーション SECURITY

ガバナンス

セキュリティ

YA R N データオペレーティングシステム

スト

レー

ジ ス

トレ

ージ

機械学習 バッチ

ストリーミング

インタラクティブ

検索

Page 24: Yifeng hadoop-present-public

安定した運用と包括的なセキュリティ

安定した運用

容易なセットアップと設定

リアルタイムのカスタマイズが可能なダッシュボード

包括的なセキュリティ

すべてのコンポーネントの承認と監査

HDFSの透過的なデータ暗号化

Apache Ambari Apache Ranger

Page 25: Yifeng hadoop-present-public

© Hortonworks Inc. 2015. All Rights Reserved

ビッグデータの技術革新 ~ Hadoop Core ~

Page 25 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Page 26: Yifeng hadoop-present-public

Page 26 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDFSとYARN – イノベーションの基盤

Hadoop / YARNを用いたデータオペレーティングシステム あらゆるアプリケーション、データセット、環境に対応する、 100%オープンソースのマルチテナント型データプラットフォーム

共有エンタープライズサービスの集中型アーキテクチャをベースに構築 拡張可能な階層型ストレージ リソース/ワークロード管理 信頼性に優れたデータガバナンスとメタデータ管理 安定した運用 包括的なセキュリティ 開発者向けAPIとツール

YARN

ガバナンス セキュリティ

オペレーション

リソース管理

ストレージ

コモディティ アプライアンス クラウド

データアクセス:バッチ、インタラクティブ、リアルタイム

Page 27: Yifeng hadoop-present-public

Page 27 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム

拡張性 データの増加にあわせて水平方向に拡張し、1つ以上のノードを1度に追加 信頼性 高可用性(HA)とフォルトトレラント性により、データの 損失と破損を防止

コスト効率 階層型ストレージで汎用ハードウェアを採用 クロスワークロードアクセス

安全性 強力なアクセス制御と認証メカニズムの統合 すべてのユーザー/グループのデータセットへのアクセスを細かく制御 移動中のデータ/保存データを保護

HDFS

YARN:データオペレーティングシステム

C A B C B B A C

B A B A C A

標準ベースの データインターフェイス

NFS 発信元/ 発信先

REST

RPC

発信元/ 発信先

発信元/ 発信先

あらゆるフォーマットのあらゆるデータを取り込み、保管

柔軟なリードアクセスにより多様なワークロードに対応

Page 28: Yifeng hadoop-present-public

Page 28 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDFSのエンタプライズ機能エンタプライズ機能

•  Namenode HA(冗⻑化)•  単⼀障害点がない

•  ファイル システム スナップショット

•  HDFS NFS Gateway•  HDFSをNFSマウント、データを簡単にHadoopに

•  データ暗号化 (HDFS TDE)•  データを置くだけで⾃動暗号化

Page 29: Yifeng hadoop-present-public

Page 29 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDFS -- 大規模向け更に効率アップ⼤規模向け•  ティア・ストレージ

•  HDD, SSD, アーカイブ, RAM Disk•  アーカイブ・ティア:コストが最⼤1/6までダウン

•  Erasure Code•  ⽇本のエンジニアからの貢献が⼤きい•  3レプリケーションと⽐べ、ストレージ効率が2倍

Cluster Storage and Compute Capacity

Cluster Storage Utilization

Compute Utilization

Page 30: Yifeng hadoop-present-public

Page 30 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

YARNにおけるマルチテナント/ワークロード

Page 31: Yifeng hadoop-present-public

Page 31 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDP 2.3内のApache Spark 1.4.1

完璧な組み合わせ セキュリティ、 プラットフォーム統合、 Zepplinによる可視化など

リソース管理 – Spark on YARN

マルチテナントワークロードと予測可能なSLA SparkR* RデータサイエンティストはSpark機械学習を活用可能

アプリケーション

ガバ

ナン

スと

統合

セキ

ュリ

ティ

オペ

レー

ショ

YARN

HDFS

Scala Java

Python API

SparkコアエンジンSparkコアエンジン

Spark SQL

Spark Streaming MLlib GraphX

Page 32: Yifeng hadoop-present-public

Page 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Apache Zeppelinについて インタラクティブな分析を可能にするWebベースのノートブック

特徴アドホックな実験Spark + Hadoopとの緊密な統合複数の⾔語バックエンドをサポートApacheでのインキュベート

ユースケースデータの探索と発⾒データの視覚化インタラクティブなスニペット⼀括処理「モダンデータサイエンススタジオ」

Page 33: Yifeng hadoop-present-public

Page 33 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

YARN - エコシステムの拡大

YARN:データオペレーティングシステム

データアクセス

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

HDFS Hadoop Distributed File System

データ管理

環境の選択肢Linux Windows オンプレミス クラウド

バッチ

MapReduce

スクリプト

Pig

検索

Solr

SQL

Hive

NoSQL

HBase Accumulo Phoenix

ストリーム

Storm

インメモリ

Spark

その他

ISVエンジン

Tez Tez Slider Slider

SAS統合 SASで、Hadoopからのデータの取り出し、 Hadoopを利用したインメモリ処理、 Hadoop クラスタ内での直接動作が可能に

Slider Hbase、Accumolo、StormなどのSlider経由でYARN上のDocker化アプリケーションを実行 Solr HDP 2.3を利用して Solr検索エンジンをYARN上で実行できるように

YARNとDocker セキュアなクラスタおよびアンセキュアなクラスタでコンテナを実行するための透過的な方法

Page 34: Yifeng hadoop-present-public

Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Data Operating System

Enable all data and applications TO BE

accessible and shared BY

any end-user

Page 35: Yifeng hadoop-present-public

Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Page 36: Yifeng hadoop-present-public

Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Page 37: Yifeng hadoop-present-public

Page 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Page 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

サンドボックスをダウンロードし、試してみてください: hortonworks.com/sandbox

Page 38: Yifeng hadoop-present-public

Page 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Page 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

Thank You