36
マルチビッグデータの活用を支える DWHの作り方 ヤフー株式会社 データプラットフォーム本部 櫻井 史彦 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.

マルチビッグデータの活用を支える DWHの作り方

  • Upload
    yahoo

  • View
    1.086

  • Download
    0

Embed Size (px)

Citation preview

Page 1: マルチビッグデータの活用を支える DWHの作り方

マルチビッグデータの活用を支えるDWHの作り方

ヤフー株式会社データプラットフォーム本部

櫻井 史彦

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.

Page 2: マルチビッグデータの活用を支える DWHの作り方

自己紹介

データプラットフォーム本部DWHチーム櫻井 史彦(さくらい ふみひこ)

2008年にヤフーに入社 8年目DWHの構築とデータ整備を担当

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 1

Page 3: マルチビッグデータの活用を支える DWHの作り方

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

2

Page 4: マルチビッグデータの活用を支える DWHの作り方

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

3

Page 5: マルチビッグデータの活用を支える DWHの作り方

ヤフーのビッグデータ?

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 4

Page 6: マルチビッグデータの活用を支える DWHの作り方

5http://www.statista.com/statistics/277483/market-value-of-the-largest-internet-companies-worldwide/

0

50

100

150

200

250

300

350

400

bilion U.S. dollars

15th Largest Internet Company in market capas of May 2015

Page 7: マルチビッグデータの活用を支える DWHの作り方

6

Extensive Reach to a Wide Range of Users

80 %

80% of all Japanese Internet users use Yahoo! JAPAN

Nielsen NetView June 2015 : Data by Brands. Access from home and work using PCs (excl. internet applications)

Page 8: マルチビッグデータの活用を支える DWHの作り方

強力なサービス

Media

US

Search Video Answer Mail

JP

US

JP

Membership C2C Payment C2C EC B2C EC Local

Search Knowledge searchNews

YAHUOKU!Premium Wallet Loco

Mail

Page 9: マルチビッグデータの活用を支える DWHの作り方

膨大なデータボリューム

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 8

68 Billion PV

PC + Tablet

33.6B PV

Smart Device

34.5B PV

Page 10: マルチビッグデータの活用を支える DWHの作り方

ヤフーは多数のビッグデータを抱えたマルチビッグデータカンパニー

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 9

Page 11: マルチビッグデータの活用を支える DWHの作り方

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 10

Page 12: マルチビッグデータの活用を支える DWHの作り方

全体像

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 11

NoSQLObject

StorageDWH

Hadoop

RDB

Page 13: マルチビッグデータの活用を支える DWHの作り方

全体像

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 12

NoSQLObject

StorageDWH

Hadoop

RDB

6000 node

150 PB

800DBs

300,000Query/day

1500nodes

2000nodes

Page 14: マルチビッグデータの活用を支える DWHの作り方

Phase1 2002-2008

Phase2 2009-2015

Phase3 2016-

主要サービスのデータを格納限られた利用者のみで使用

より多くの種類かつ大量なデータを格納多くの利用者に開放

Teradata以外のデータソースも統合する“logical DWH”構想

ヤフーのDWH

Teradata 5255Teradata 5255+5350

Teradata 5500Teradata 5500+5600Teradata 6690

Teradata 6690 & 2800Unified Data Architecture

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 13

Page 15: マルチビッグデータの活用を支える DWHの作り方

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 14

Page 16: マルチビッグデータの活用を支える DWHの作り方

SQLだけでなく様々な分析クエリーを実行したい

構造化、非構造化データをつなげて分析したい

複数データソースにまたがって分析したい

全部、一箇所で…。

利用者のニーズ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 15

Page 17: マルチビッグデータの活用を支える DWHの作り方

Logic

al D

WH

Teradata

構造化、非構造化データをつなげて分析できる

様々な分析クエリを実行で

きる

複数データソースにまたがって分析できる

Teradata

現在 1年後

今後のDWH

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 16

Page 18: マルチビッグデータの活用を支える DWHの作り方

Logic

al D

WH

Teradata

QueryGrid, PrestoInformatica

HadoopRDB

NoSQLS3 Storage

Presto

Teradata

現在 1年後

具体的なコンポーネント

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 17

Page 19: マルチビッグデータの活用を支える DWHの作り方

Logical DWH

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.18

Data Sources RDB RDB

Informatica

Exadata Hadoop

Hadoop RDB

QueryGridTDCH

Teradata RDBNoSQL

Low concurrency, large volumebatch queries

High concurrency, small volumeinteractive queries and small batches

Presto

S3-compatible Storage

Page 20: マルチビッグデータの活用を支える DWHの作り方

Logical DWH

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.19

Data Sources RDB RDB

Informatica

Exadata Hadoop

Hadoop RDB

QueryGridTDCH

Teradata RDBNoSQL

Low concurrency, large volumebatch queries

High concurrency, small volumeinteractive queries and small batches

Presto

S3-compatible Storage

Page 21: マルチビッグデータの活用を支える DWHの作り方

Prestoへの期待

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 20

Page 22: マルチビッグデータの活用を支える DWHの作り方

Prestoとは

Facebook発のOSSプロジェクト

メモリベースの高速なクエリーエンジン

様々なデータソースにつながる技術

Teradata, Hive, MySQL, Cassandra, S3, etc.

※Teradata社も開発に積極参加Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 21

Page 23: マルチビッグデータの活用を支える DWHの作り方

RDB NoSQL Hadoop DWHPresto

従来のクエリーのエントリーポイント

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 22

Page 24: マルチビッグデータの活用を支える DWHの作り方

RDB NoSQL Hadoop DWHPresto

新しいクエリーのエントリーポイント

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 23

Page 25: マルチビッグデータの活用を支える DWHの作り方

QueryGridとPrestoの関係

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 24Copyright (C) 2016 Teradata Japan, Ltd. All Rights Reserved.

Page 26: マルチビッグデータの活用を支える DWHの作り方

どんな用途が考えられるか?

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 25

Page 27: マルチビッグデータの活用を支える DWHの作り方

CustomerAttributes

Shopping Membership

Cassandra

ExecutiveDashboard

PersonalizationAnalysisReportsTargeting list

BrowsingWeb/click

Settlement

Teradata

・・・

Presto

Use Case – deliver personalization data

INSERT tableB@CassandraSELECT user_id FROM tableAWHERE segment_code = 1;

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 26

Page 28: マルチビッグデータの活用を支える DWHの作り方

S3-compatible Storage Teradata

Service B

Service A

small data

small data

Presto

REST

REST

SELECT

SELECT

INSERT

INSERT

Use Case – small batches from storage

INSERT tableASELECT * FROM filename@S3storageWHERE log_date = date - 1;

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 27

Page 29: マルチビッグデータの活用を支える DWHの作り方

Yahoo!スケールでの課題

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 28

Page 30: マルチビッグデータの活用を支える DWHの作り方

課題

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 29

TBクラスのデータJOINを可能にする

push-down機能の強化

メモリーに乗り切らないデータの処理改善

ワークロード管理

重たいクエリーも、軽いクエリーもバランスよく

Page 31: マルチビッグデータの活用を支える DWHの作り方

複数データソースに対して統一的なアクセスなど、

次世代データ分析基盤に必要な機能の共同開発

テラデータの最新技術とヤフーが持つ多様なユース

ケース及びビッグデータを用いた先行的な共同検証

UDA Product Advisory Councilに加盟。ビッグ

データ関連の課題を討議しフィードバック

Teradata Labsと協力

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 30

Page 32: マルチビッグデータの活用を支える DWHの作り方

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 31

Page 33: マルチビッグデータの活用を支える DWHの作り方

Data Sources RDB RDB

Informatica

Exadata Hadoop

Hadoop RDB

QueryGridTDCH

Teradata RDBNoSQL

Low concurrency, large volumebatch queries

High concurrency, small volumeinteractive queries and small batches

Presto

S3-compatible Storage

DWHの将来像

32

Page 34: マルチビッグデータの活用を支える DWHの作り方

求む DWHエンジニア!!!

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 33

Page 35: マルチビッグデータの活用を支える DWHの作り方

大規模DWHの構築。膨大なデータ量&クエリ数と

格闘して経験値UP!

新しいコンセプトのDWHを作り上げるチャンス

経験できること

http://hr.yahoo.co.jp/job-info/career/0157/

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 34

ヤフー プラットフォーム開発エンジニア 検索

Page 36: マルチビッグデータの活用を支える DWHの作り方

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 35