Cloudera大阪セミナー 20130219

Preview:

DESCRIPTION

2013/02/19に開催された、大阪セミナーでの資料です。 Cloudera Managerを使用してCDHをインストールするデモ動画はこちら↓ https://vimeo.com/49643526/

Citation preview

Cloudera のビッグデータ技術~ Hadoop と CDH 、 Cloudera Manager ~

Cloudera 株式会社 小林大輔2012/02/19

2

アジェンダ

• Hadoop とは?• Cloudera が提供する Hadoop ディストリ

ビューション• Hadoop の運用について• 運用管理ツールのご紹介

3

自己紹介

• 小林大輔• カスタマーオペレーションズエンジニアと

してテクニカルサポート業務を担当

• daisuke@cloudera.com

( 小中高を神戸の田舎の方で過ごしました )( いまは両親とも東京に移住済み )

4

Hadoopとは?

5

データ処理の課題

• ストレージ• データをどこにどう貯めておくか

• 処理• データをどこでどう計算するか

6

ストレージの容量

1997 2004 20120

500

1000

1500

2000

2500

3000

3500

2.1

200

3000

HDD単体容量 (GB)

7

ストレージの価格

1997 2004 2012$0

$20

$40

$60

$80

$100

$120

$140

$160

$180

$157.00

$1.05 $0.05

GBあたりのコスト

8

ディスクの性能

1997 2004 20120.0

50.0

100.0

150.0

200.0

250.0

16.6

56.5

210.0

転送レート (MB/s)

9

ディスク読み込み時間

• ディスク全体の読み込み時間はむしろ増えている状況といえる

年 容量 時間

1994 年 2.1GB 126 秒

2004 年 200GB 59 分

2012 年 3000GB 3 時間 58 分

10

ディスク読み込み時間

• ディスク全体の読み込み時間はむしろ増えている状況といえる

年 容量 時間

1994 年 2.1GB 126 秒

2004 年 200GB 59 分

2012 年 3000GB 3 時間 58 分

11

つまり、、、

• ディスク容量は増え、価格も下がった• しかし、データを読み書きする速度 (I/O)

はそれほど改善されていない

データアクセスがボトルネックになる

12

• 一般的に計算処理は CPU に依存• ムーアの法則

「マイクロプロセッサの性能は 18 ヶ月で 2 倍になる」

• iPhone5 の CPU は、 1977 年に発表された富士通のスーパーコンピュータ、FACOM 230-75 の 20 倍

処理

13

• 一般的に計算処理は CPU に依存• ムーアの法則

「マイクロプロセッサの性能は 18 ヶ月で 2 倍になる」

• iPhone5 の CPU は、 1977 年に発表された富士通のスーパーコンピュータ、FACOM 230-75 の 20 倍

処理

14

大規模処理をしようと思ったら、、、

• 現代の大規模処理はマシン間で処理を分散する• 分散処理システムが必要

「開拓時代には重いものを引くのに雄牛が使われたものですが、一頭の雄牛が丸太を

引くことができなくても、もっと大きな雄牛を育てようとはしませんでした」

Grace Hopper: 初期の分散コンピューティングの研究者

15

分散処理の問題:データ処理のボトルネック

• 少量のデータでは問題ない• 計算サーバーが増えると悪化する

• ネットワーク間の通信による

16

分散処理の問題:複雑さ

• 可用性• 部分障害• 連鎖障害• データの一貫性• イベントの同期• 帯域の制限• …..• …..

17

分散処理の問題:複雑さ

• 可用性• 部分障害• 連鎖障害• データの一貫性• イベントの同期• 帯域の制限• …..• ….. そこで登場したのが Hadoop

18

Hadoop とは何か?

• コモディティハードウェアにより構成される

• スケールアウト型のアーキテクチャ• Hadoop は Google の論文を参考に開発

されている

20

Hadoop での解決:ディスクのパフォーマンス

• 複数のディスクを並列に使用する• 単一ディスクの転送レートが 210MB/s

• 3TB のデータ読み込みには約 4 時間• 1000 台並列であれば 210GB/s

• 3TB のデータ読み込みには 15 秒弱

22

Hadoop での解決:複雑さと耐障害性

• MapReduce プログラミングモデルにより処理を単純化

• 障害が不可避であるという前提で動作• 大規模なクラスタであれば、 1日あた

り 1 台の障害が起こりうる• MTBF(平均故障間隔 ) が 5 年、 2000 台と仮定• 365日 *5 年 =1825日 ( ほぼ 2000日 )

Hadoop とは ?

23

• コモディティハードウェアにより構成される

• スケールアウト型のアーキテクチャ• 耐障害性を備えている• オープンソースのソフトウェア

Hadoop のコアコンポーネント

24

HDFS

自己修復機能を持つ

分散ストレージ

MapReduce

分散コンピューティング・フレームワーク

HDFS

• Hadoop の分散ファイルシステム• 大量のデータを多数のノードに分散し

て保存する• 耐障害性が高く、シーケンシャルアク

セスに対するスループットが高い•低レイテンシのデータアクセスや小さ

いファイルへのアクセスは苦手

25

26

HDFS

自己修復機能を持つ高帯域なクラスタストレージ

1

2

3

4

5

2

4

5

HDFS

1

2

5

1

3

4

2

3

5

1

3

4

HDFSは受け取ったファイルをブロックに分割し、そのブロックをクラスタ全体にわたって重複して格納します

27

HDFS

1 つのサーバが壊れても自動複製

2

4

5

1

1

2

5

3

1

3

4

2

3

5

4

1

3

4

生きているノードに自動的に複製し、常に 3 つのレプリカがあるようにす

MapReduce

©2011 Cloudera, Inc. All Rights Reserved.

28

分散コンピューティングフレームワーク

1

2

3

4

5

2

4

5

MR

1

2

5

1

3

4

2

3

5

1

3

4

多数のノード間で大規模ジョブを並列処理し、処理結果を結合します

なぜMapReduce か?

• データを取得するのではなく、データのある場所にプログラムを送信して計算する

• データを HDFS に保存することで耐障害性の確保• ノード障害発生時にはそのノードの処理分だけ再実行

29

Hadoop の周辺コンポーネント

分散ファイルシステムAPACHE HDFS

大規模分散処理基盤APACHE MapReduce

分散データベースAPACHE HBase

高級言語とライブラリAPACHE Hive, APACHE Pig, APACHE Mahout

ワークフローとスケジューリングAPACHE Oozie

クラウドでの分散処理ライブラリAPACHE Whirr

分散協調サービスAPACHE ZooKeeper

Hadoopと RDBMSとの連携APACHE Sqoop

分散ログストリーミング処理APACHE Flume

30

Hadoop の周辺コンポーネント

分散ファイルシステムAPACHE HDFS

大規模分散処理基盤APACHE MapReduce

分散データベースAPACHE HBase

高級言語とライブラリAPACHE Hive, APACHE Pig, APACHE Mahout

ワークフローとスケジューリングAPACHE Oozie

クラウドでの分散処理ライブラリAPACHE Whirr

分散協調サービスAPACHE ZooKeeper

Hadoopと RDBMSとの連携APACHE Sqoop

分散ログストリーミング処理APACHE Flume

• Hadoop を使ってみたい• コンポーネント毎にソースをダウンロードしてきてビルドする• 各サーバーにデプロイする• どのバージョンにどの修正が含まれているのか把握するのは困難

• 互換性の問題

31

Cloudera が提供する Hadoop ディストリビューション

• CDH(Cloudera’s Distribution including Apache Hadoop)

• 主要コンセプトは 4 つ• 大規模データの蓄積• 並列処理• データインテグレーション• 言語とインタフェース

• CDH では、これらのコンセプトを実現するための様々なコンポーネントを用意

32

なぜ CDH なのか ?

• CDH には大量のパッチが当てられています• 性能改善・バグ修正パッチ• 互換性を維持できる範囲での機能追加

• CDH はパッケージで管理できます• yum コマンドで簡単にインストール / アップデート可能

• コミュニティ版を使うとコンポーネントごとにダウンロード、コンパイル、デプロイを行う必要がある

CDHはエンタープライズ向けのHadoopディストリビューションです

33

34

CDH3Q2 2011

2009 2010 2011 20122012/06

2012/09

CDH2Q1 2010

CDH1Q3 2009

高可用性ネームノード (NFS)複数のデータ処理フレームワーク(MR1 と

MR2)etc…

CDH42012/06

CDH 開発の歴史

高可用性ネームノード ( クォーラムベースストレージ )Hue の Oozie ワークフロー GUI と日本語化統計分析用 Pig ライブラリ DataFuetc…

CDH4.12012/09

35

Hadoopの運用について

36

Hadoop の運用

• 必要になる作業• クラスタの管理と監視• 設定• 設定パラメータ• メンテナンス• パフォーマンス監視• アクセス管理

37

Hadoop の運用

• Hadoop は複雑なシステム• 非常に多くの要素がある• ネットワークやストレージなど、考慮することが多い

•設定項目も膨大• サポートで問い合わせをうける問題も、設定ミスによるものであるケースが多い

38

Hadoop の運用

• Apache Hadoop は複雑なシステム• 非常に多くの要素がある• ネットワークやストレージなど、考慮することが多い

•設定項目も膨大• サポートで問い合わせをうける問題も、設定ミスによるものであるケースが多い

• Hadoop の運用は難しく、大変• Cloudera が提供する運用管理ソフトが

これらの問題 /不安を解消します= Cloudera Manager

39

Cloudera Manager とは

• エンタープライズ規模の Hadoopユーザーの必要に応じて設計されたアプリケーション

• Hadoop をノードにインストール• クラスタにホストの追加/削除、サービスを設定• クラスタの動作を監視• クラスタの使用量のレポートを生成• クラスタにアクセスするユーザーを管理

日本語に対応!

ダッシュボード

40

パフォーマンスと使用量のレポート

41

42

CDH をインストールする

• Cloudera Manager を使用します• Web アプリケーションなので、操作は

すべてブラウザから行います• GUI は日本語化対応済みです

43

デモ動画https://vimeo.com/49643526

44

Cloudera Manager の種類

• Free Edition• 無償でダウンロード可能• インストールと基本的な設定を容易にする

• Enterprise Edition• エンタープライズ/商用向けの機能を含んで

いる• Free Edition から容易にアップデート可能

45

Free Edition の制限

• Free Edition では 50ノードまでサポート• Enterprise Edition は制限なし

• Free Edition にはエンタープライズ用の機能が含まれない

• サービス監視• LDAP/Kerberos統合• イベント管理とアラート• アクティビティモニタ• レポート機能• サポートシステムとの統合

46

ダウンロードして試してみてください

• https://ccp.cloudera.com/display/support/downloads

•弊社 Web サイトのトップページから、

「 RESOURCES 」-> 「 Download Cloudera Manager 」と辿ってください

47

今日話したこと

• Hadoop とは?• Cloudera が提供する Hadoop ディストリ

ビューション• Hadoop の運用について• Cloudera Manager のご紹介

48

Recommended