27
© Talend 2014 1 ビッグデータの収集、整備、統合、活用の ティップス 日時 :2014年6月27日(金) :秋葉原コンベンションホール 主催 :翔泳社 Talend株式会社 コンサルティングマネージャー 正金秀規 DATA SCIENTIST SUMMIT 2014 A-415:3016:10 本スライド内で引用される全ての商標、商標名、画像、ロゴ等は各社に帰属します

Data scientist summit 2014

Embed Size (px)

Citation preview

Page 1: Data scientist summit 2014

© Talend 2014 1

ビッグデータの収集、整備、統合、活用のティップス

日時 :2014年6月27日(金)於 :秋葉原コンベンションホール主催 :翔泳社

Talend株式会社コンサルティングマネージャー正金秀規

DATA SCIENTIST SUMMIT 2014

【A-4】 15:30~16:10

本スライド内で引用される全ての商標、商標名、画像、ロゴ等は各社に帰属します

Page 2: Data scientist summit 2014

© Talend 2014 2

データ分析の阻害要因

Page 3: Data scientist summit 2014

© Talend 2014 3

歴史のある典型的なDWHシステム

DWHシステム

データマートDWHステージングエリアファイル類

ERP

Cloud / SaaS

DBMS

DWH

分析・レポーティング

業務システム

最適化が必要顧客情報分析、リスク分析売上傾向分析、管理会計サプライヤ分析、その他

Page 4: Data scientist summit 2014

© Talend 2014 4

ビジネスが

新たなデータを

要求する時代に

Page 5: Data scientist summit 2014

© Talend 2014 5

想定していなかった情報が業務を取り巻いてきています

天気情報

マーケット・ニュース

オープンデータ

センサーネットワーク

スマートメーター

データ量

データの種類

ソース数

データ量

データの鮮度

Page 6: Data scientist summit 2014

© Talend 2014 6

ビッグデータでトレンドな分析対象〜構造・半構造・多構造・非構造データ〜

• 顧客インタラクションデータ

- クリックストリーム、WEBアクセスログ

- コールセンターのボイスデータ、e-mail

• ソーシャルネットワークデータ:Facebook, Twitter等

• 非構造コンテンツ

• センサーデータ

- GPS位置情報、天気情報、光量、移動、振幅、気圧、RFID/NFC等

• 業種・業界特化データ

- CDR:通話明細、銀行トランザクション等

出典:The Real-World Use

of Big Data Said Business

School Oxford and IBM,

October 2012

Page 7: Data scientist summit 2014

© Talend 2014 7

困難な点:ソースデータの複雑さ

• データの種類が多岐にわたる- RDB等で管理された構造化データ

- 半構造化データ:XML, HTML, JSON等

- 非構造データ:テキスト

- マシン生成データ:センサーデータ等の特殊フォーマット

• データ量があまりに膨大- ギガからペタへ

- 億から数十億へ

• 情報の鮮度に対する要求の高度化- バッチ処理からストリームへの対応も考慮が必要

• データの意味を理解しなければならない- データ項目には様々な意味があります

Page 8: Data scientist summit 2014

© Talend 2014 8

困難な点:ソースデータの複雑さ

アクセスログ

XML

画像データ

Page 9: Data scientist summit 2014

© Talend 2014 9

例:Twitter

タイムスタンプ

スクリーンネーム

時間帯

つぶやき

※以下は加工済みです

Page 10: Data scientist summit 2014

© Talend 2014 10

分析作業の負荷軽減と

精度向上、定着化のためにデータの整理整頓が必要

Page 11: Data scientist summit 2014

© Talend 2014 11

データ分析とビッグデータインテグレーション

Page 12: Data scientist summit 2014

© Talend 2014 12

データ分析におけるプロセスと役割

仮説構築データ

収集

データ

整備・変換視覚化

データ

分析

データ

活用

データサイエンティスト

データ分析者

データインテグレーション担当者

システム基盤担当者

Page 13: Data scientist summit 2014

© Talend 2014 13

データ分析システム

昨今のデータ分析システムが保持すべき3つの機能

データインテグレーション機能

ビジネスインテリジェンス機能

ビッグデータストア機能

仮説構築データ

収集

データ

整備・変換視覚化

データ

分析

データ

活用

Page 14: Data scientist summit 2014

© Talend 2014 14

ビッグデータストア機能とBIの役割

• ビッグデータストア機能

- Hadoop:大量データを蓄積

- NoSQL DB:データ・検索手法に対する最適化

- Spark:インメモリ

• ビジネスインテリジェンス機能

- データ収集(必要なデータを見つける)

- データ整理(有効な項目を見つける)

- 視覚化

- 分析

Page 15: Data scientist summit 2014

© Talend 2014 15

データインテグレーション機能の役割

• データ収集の自動化

• コンバージョン

• クレンジング・フィルタリング

• 属性の付与・結合

• データストアへ投入

さらにインテグレーション担当者は、

• 分析担当者がパイロットした分析アルゴリズムを定形処理に実装

• 自動実行化することで定着化

Page 16: Data scientist summit 2014

© Talend 2014 16

データ分析システム

データインテグレーション機能

ビジネスインテリジェンス機能

ビッグデータストア機能

モノ(道具と基盤)は投資獲得と共に順次拡張例:ブループリント作成フェーズ

仮説構築データ

収集

データ

整備・変換視覚化

データ

分析

データ

活用

小規模体制、低コストで PRJプランニング、戦略、予算策定

Page 17: Data scientist summit 2014

© Talend 2014 17

データ分析システム

データインテグレーション機能

ビジネスインテリジェンス機能

ビッグデータストア機能

モノ(道具と基盤)は投資獲得と共に順次拡張例:コアシステム化フェーズ

OSS系インテグレーションツール BIツール

仮説構築データ

収集

データ

整備・変換視覚化

データ

分析

データ

活用

小規模体制、先ずはBIツールと基盤へ予算を振分けることも勘案

Page 18: Data scientist summit 2014

© Talend 2014 18

データ分析システム

データインテグレーション機能

ビジネスインテリジェンス機能

ビッグデータストア機能

モノ(道具と基盤)は投資獲得と共に順次拡張例:システム運用フェーズ

仮説構築データ

収集

データ

整備・変換視覚化

データ

分析

データ

活用

定形処理は、インテグレーションへ。小さなP-D-C-Aを積上げる

商用版インテグレーションツール BIツール

Page 19: Data scientist summit 2014

© Talend 2014 19

ビッグデータインテグレーションのポイント

システム構築やデータ分析は最終目標ではない、

データ分析やデータ統合によってビジネスを推進する、

ビジネス目標を達成することこそ目的

目的と手段を取り違えない

スナップショットによるデータ統合や分析ではなく、

仮説・検証・データ分析という「PDCAサイクル」を

まわして実績を積み上げていく

スパイラルアプローチ

データサイエンティスト(データ分析者)、データインテ

グレーション担当者、システム基盤担当者が一体と

なって進めることが重要三身一体

Page 20: Data scientist summit 2014

© Talend 2014 20

ビッグデータ統合のTalendを御紹介

Page 21: Data scientist summit 2014

© Talend 2014 21

Talendの概要と製品紹介

Page 22: Data scientist summit 2014

© Talend 2014 22

Talend Open Studio for

Talend Platform for ….

Talend製品体系

Talend Enterprise

WithBig Data

WithBig Data

WithBig Data

Talend EnterpriseData Integration

Talend EnterpriseBig Data

Talend EnterpriseESB

Talend Platform forBig Data

Talend Platform forData Management

Talend Platform forData Services

Talend Platform forMaster Data Management

Talend Platform forEnterprise Integration

Page 23: Data scientist summit 2014

© Talend 2014 23

複雑なMap Reduce処理をGUIで開発

• Map Reduceジョブデザインワークスペースでインディケーターを表示

- 実行時にMapステップとReduceステップの進捗状況とステータスをリアルタイム表示

- Map Reduceジョブのチューニングがビジュアルに可能

ビッグデータインテグレーションの生産性を飛躍的に向上!

Page 24: Data scientist summit 2014

© Talend 2014 24

Talendの特徴:ダイナミックインテグレーション

• ダイナミックに発生するデータを迅速に取得していくインテグレーション

多種多様なソースデータの取得・収集を可能とする

500コンポーネントを搭載。

コミュニティには300以上のユーザー作成コンポーネントも

500以上のコンポーネント

ビッグデータ統合処理をMapReduce上でネイティブでの

実行することが可能なため投資効果を高く保ちながら

無限のスケーラビリティを実現

Hadoopネイティブ稼働

ライセンス対象はTalendを使う人

データ量、サーバー数、CPU数、コネクター数はライセンス対象ではない

コンポーネントは無料提供

プライスモデルは、サブスクリプションモデル

ビジネスモデル

Page 25: Data scientist summit 2014

© Talend 2014 25

Talend製品で実装済みのコネクターやコンポーネント

Hadoop NoSQL DB DWH, Technology

Amazon Elastic

MapReduce

Page 26: Data scientist summit 2014

© Talend 2014 26

金融サービス保険

通信サービス

製造業流通小売り

公共機関教育

導入顧客例:ワールドワイド4,000+社、国内200+社でご活用

Page 27: Data scientist summit 2014

© Talend 2014 27

Contact us:

[email protected]

Learn more:

www.talend.com

お問合せ:[email protected]

WEBサイト:http://jp.talend.com

ご清聴有難う御座いました