14
Copyright © 2012, SAS Institute Inc. All rights reserved. 1 ビビビビビビ ビビビビビビビビビビビビビビビビビビビビビ ビビ ~、 Hadoop ビビビビビビビビビビビビビビ ビビビ 8~ SAS Institute Japan Ltd. Analytical Platform Practice Izumi Kobayashi

Hadoopでアナリティクス8チェックリスト

Embed Size (px)

Citation preview

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

1

ビッグデータ・アナリティクスへの取り組みをモダナイズする

~今、 Hadoop を始めるためのチェックリスト8項目~

SAS Institute Japan Ltd.

Analytical Platform Practice

Izumi Kobayashi

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

MODERNIZE モダナイズ

mod・ ern・ize

Verb

Adapt (something) to modern needs or habits,

typically by installing modern equipment or

adopting modern ideas or methods

【動詞】新しい技術を導入したり、 あるいは、新しいアイデアや方法を適用して、 新しいニーズや習慣に適応すること

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

3

アナリティクス環境のモダナイゼーションが求められている

顧客・市場・サービスの多様化

顧客・市場・競合の変化の加速

技術進化による利用可能データの増加

従来の技術ではコスト高

従来の技術では間に合わない

Hadoop の採用が加速している理由

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

4

1 Hadoop について理解する

2 インメモリ・アナリティクスの活用を検討する

3 分析のためのデータ準備プロセスを見直す

4 データを探索し新しい洞察を得る

5 アドバンスト・アナリティクスについて理解する

6 テキスト・アナリティクスの本当の活用方法

7 アナリティクスでビジネス価値を生み出すために

8 スキルの評価

Hadoop を始めるために知っておくべきこと-チェックリスト8項目-

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

5

1. Hadoop について理解する

Hadoop とは、安価な H/W を並べることにより、非常に大量のデータを蓄積し、そのデータを並列に処理する技術・方法である

HDFS分散ストレージ

YARNリソース管理

Map Reduce

データ処理

Pig,Hive など

データ処理

その他データ処理アナリティ

クス

Hadoop プラットフォーム

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

6

2. インメモリ・アナリティクスの活用を検討する

Map Reduce は、大規模バッチ処理を目的としており、 I/O 依存で、決して“高速”ではない。対話的な分析やアドバンスト・アナリティクスには向いておらず、インメモリ・アナリティクス技術が不可欠である

HDFS分散ストレージ

インメモリ・アナリティクス基盤インメモリ・アナリティク

ス基盤

SMP アーキテクチャ分散並列アーキテクチャ

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

7

3. 分析のためのデータ準備プロセスを見直す

EDW では、あらかじめ整備されたデータを目的に沿って準備するのに対し Hadoop では、とりえあえず格納し、使用する際に整備・加工・クレンジングする。分析者がHadoop 上でデータ加工できることが重要

従来のアプローチ

整備された・繰り返し分析

ビッグデータに対するアプローチ

反復的&探索的分析

ビジネス・ユーザーが「問い」を決める

IT 部門が問いに応えるためのデータを整備する

IT 部門が、創造的な発見のための基盤を提供する

ビジネスユーザーはどのような「問い」をすべきかを探索する

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

8

4. データを探索し新しい洞察を得る

Hadoop 上のビッグデータや All データに対して、データの品質、傾向や関連性、重要性を即座に理解することが必要。 IT 部門の作業を待つことなく、分析者自身で実施できる環境が求められる。

ビジュアライゼーション

インメモリ・アナリティクス

対話型

記述統計

セルフサービス

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

9

5. アドバンスト・アナリティクスについて理解する

ビッグデータをビジネス価値に変えるためには、単なる集計や記述統計では不十分である。データマイニング、テキストマイニングや機械学習といったアドバンスト・アナリティクスが必要となる。

アドバンスト・アナリティクスの例• パターン検知• 分類• 予測• レコメンデーション• 最適化

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

10

6. テキスト・アナリティクスの本当の活用方法

Hadoop を採用する理由の一つとして、テキストデータを格納することが多い。これは HDFS の特徴から理にかなっている。多くの場合テキストデータは予測モデリングのインプットにして初めて価値をもたらす

予測モデリン

アクション レビュー構造化

データデータ準備

データ探索

テキストデータ

形態素解析

タグ付分類

顧客ID

属性 行動 行動

1

2

3

4

単なる前準備

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

11

7. アナリティクスでビジネス価値を生み出すために

ビッグデータアナリティクスからビジネス価値を生み出すためには、予測モデルを用いてよりよい意思決定に繋がるアクションを実施する必要がある。 Hadoop内あるいは業務システムにスコアリング機能が必要

予測モデル

予測モデリン

最新のデータ

スコアリング結果

アクション

スコアリング処理

例• 解約予兆• レコメンデーション• 債権回収• 故障予兆• 営業活動最適化• 与信管理• 不正予兆

将来をより良い方向へ導くためのアクションのためのモデル

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

12

8. スキルの評価

ビッグデータ・アナリティクスによってビジネス価値を創出するためには、プログラミング、コンピューター・サイエンス、モデリング、創造的な思考やコミュニケーション能力など、多岐にわたるスキルが求められる。

そのすべてを一人で備えるケース(データ・サイエンティスト)はあまり多くない。したがって、アナリティクス・チーム全体でこれらのスキルをカバーできていればよい。その場合に重要となるのは、「アナリティクス」そのものの価値を良く理解しているリーダーである。

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

13

さいごに: ビッグデータ・アナリティクスを成功に導くマインドセット

従来の考え方

SCARCITY MINDSET 技術に縛られる

作業中心

コスト削減に集中

許可が下りなければ実行できない

新しいトレンド

ABUNDANT MINDSET 技術を活力にす

発見中心

バリュー創出に集中

禁止されない限り実行してよい

Copy r ight © 2012, SAS Ins t i tu te Inc . A l l r ights reserved.

14

お問い合わせ先SAS Institute Japan マーケティング本部

[email protected]