44
Copyright 2012 FUJITSU LABORATORIES LTD. 0 0 Copyright 2012 FUJITSU LABORATORIES LTD. ビッグデータを活用する 情報センター向け技術 2012年10月26日 株式会社富士通研究所 フェロー 坂下善隆

ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LABORATORIES LTD. 0 0

Copyright 2012 FUJITSU LABORATORIES LTD.

ビッグデータを活用する 情報センター向け技術

2012年10月26日

株式会社富士通研究所

フェロー 坂下善隆

Page 2: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

1.はじめに ビッグデータ時代の到来

企業活動、社会生活で発生する多様かつ大量のデータを

ビジネスに活用するニーズが高まっている

<ビッグデータ市場規模の拡大> <データの急激な増加>

出典:IDC 「IDC Predictions 2012: Competing for 2020」

(#231720、2011/12)

2012年

2.7ZB

2015年

8ZB

1ZB=100万PB

2010 出典:IDC「Worldwide Big Data Technology and Services 2012–2015 Forecast」

(#233485、2012/3)

2011 2012 2013 2014 2015

[$B]

CAGR39.4%

データ量の急増に伴ってビッグデータの利活用が拡大

Worldwide Big Data Technology and Services Revenue by Segment

1

Page 3: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

M2M SNS ツイッター

スマートフォン

モノ・コト

個人の嗜好や

潜在需要など

ビッグデータの活用の背景

多様なデータを組み合わせた、より深い分析が可能に

変化する世界の最新の傾向を、即座に把握し活用する

モノ・コト

商品の売上や ウェブページの

ランキングなど

ツイッター

口コミ SNS

GPS情報

鉄道乗降

趣味

クレジット情報

ネット購買

コン

テキ

スト

コンテキスト (人の状態や周辺の事象) に 依存する傾向などの分析

POS Webサイト オンラインショップ

2

Page 4: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

ビッグデータ活用例

[Volume] 1日数千万件から数十億件への高速処理

[Variety] SNSなど多様なデータの組み合わせ分析

[Velocity] デバイスから発生する高頻度データを即時処理

流通:数億件のデータ処理で店舗毎の売れ筋商品を予測

流通:位置情報を利用したクーポン配信サービス

医療:電子カルテから生活習慣と病気の相関分析

製造:クレームや口コミを分析して企業リスクを回避

製造:複合プリンタの故障予測と予防保守

金融:帳票バッチ処理の飛躍的な時間短縮

これまでにないデータ活用が可能に

3

Page 5: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

先行商談状況

<2011年10月~>

新ビジネスへのチャレンジ

情報系システムの 戦略的活用を深化

35%

31%

30%

4%

SNS情報を分析して企業リスクを回避

企業活動のあらゆるシーンで期待が高まっている

基幹システムのプロセスを革新 店舗毎の売れ筋商品を予測

位置情報を利用したクーポン配信サービス

4

Page 6: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

富士通研究所での主なビッグデータへの取り組み

収集から活用まで、“より速く”、“より賢く”

各種センサー

携帯機器

ソーシャルメディア

企業内データ

データ

Twitterなど

分析 テキスト分析

シミュレーション

最適化技術

予測

ソーシャルメディア分析

リスクシナリオ分析

マルチエージェントシミュレーション

最適領域発見

分散収集処理技術

データ処理 並列インクリメンタル処理

並列イベント処理 大量データ処理技術 既発表技術

収集

センサー

ワイヤレス

データ最適化

セキュリティ

活用 社会問題

(エネルギー、人口等)

災害予防、医療

マーケティング

リコール予測技術

ピーク電力削減技術

交通シミュレータ

自律負荷分散ストレージ

分析シナリオを自動推薦

ビッグデータ統合開発環境

5

Page 7: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

2.分析・活用の最新技術

各種センサー

携帯機器

ソーシャルメディア

企業内データ

データ

Twitterなど

分析 テキスト分析

シミュレーション

最適化技術

予測

データ処理 大量データ処理技術

収集

センサー

ワイヤレス

データ最適化

セキュリティ

活用 社会問題

(エネルギー、人口等)

災害予防、医療

マーケティング

①分析シナリオを自動推薦

②ビッグデータ統合開発環境

ビッグデータの各種処理を統合的に開発・実行する環境を開発

ビッグデータを利活用するための分析シナリオを自動的に推薦する技術

6

Page 8: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

①分析シナリオを自動推薦

活用

大量・多様なデータを 高頻度で収集可能

高度な分析技術を 使いこなすことが難しい

複合的なデータの 組み合わせが重要

ビッグデータ利活用を実現するためには、分析シナリオ(データの組み合わせ、分析プロセス)がポイント

→ 分析の専門家が創出した分析シナリオの蓄積・再利用

→ 蓄積された分析シナリオから目的に合ったものを推薦

(分析シナリオを創出できる分析の専門家の育成の支援にもなる)

分析 収集

分析技術やツールが 整ってきている

ビジネス活用への ニーズが高まっている

7

Page 9: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

解決のアプローチ

分析の専門家が、分析シナリオを分析テンプレートとして設計・蓄積

→ 蓄積された分析テンプレートが増えてくると、探すことが困難

従来の方法=業種・業務や分析目的で絞り込む方法が一般的

→ 分析目的が明確になっていないビッグデータ利活用には不向き

本技術の方法=分析対象データの内容・特性に合わせて自動推薦

分析の専門家

ビッグデータ 分析シナリオ の自動推薦

新たな分析 シナリオの創出

既存の分析 シナリオの再利用

分析シナリオ(=分析テンプレート) データの組み合わせ、分析プロセス(手順)

分析シナリオがない 新たな分析課題

分析シナリオがある 定式化された分析課題

お客様 SE、コンサル

分析対象データの内容・特性に合わせて 適合する分析シナリオを自動推薦

8

Page 10: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

技術ポイント

分析テンプレートをデータモデルと対応付けて管理

データプロファイリングにより分析対象データの内容・特性を推定

プロファイリングされた内容・特性を、分析テンプレートと対応付けられているデータモデルとマッチングすることで分析テンプレートを推薦

【データモデル】 データの内容(項目)や特性(値の形式、範囲など)の標準モデル

【分析テンプレート】 分析プロセス(分析の処理手順)を分析部品を組み合わせて設計

対応付けて管理 (どのようなデータにどのような分析シナリオが適用可能か?)

【 POS】 • 年月日 • レシート番号 • 分類名 • 商品名 • 売上金額 • 売上点数 • 店舗名 …

【顧客管理】 • 年齢 • 性別 • 居住エリア • 既婚・未婚 • カード保有 …

【労災事故】 • 業種 • 発生年月日 • 発生場所 • 事象分類 • 事象詳細 • 原因分類 • 原因詳細 …

【イベント情報】 • イベント発生日 • イベント発生場所 • イベント期間 • 対象人数 • 内容詳細 …

分析対象 データ

【データプロファイリング】 •データの内容・特性を推定 •データモデルとマッチング

故障発生予測 のテンプレート

労災事故分析 のテンプレート

イベント発生予測 のテンプレート

9

Page 11: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

効果

データプロファイリングによる自動推薦により、分析対象データさえあれば、業務・業種や分析に関する深い知識やノウハウがなくても分析プロセスをスパイラルに回していくことが可能

分析シナリオの再利用により、高度な知識やノウハウを持っていなくても簡単に分析業務を実施可能

分析対象データ を指定 データの内容や特性を解析

データの内容や特性に 適合するテンプレートを推薦

追加データ候補を提示

(データの組み合わせを推薦)

データモデル DB

分析結果を提示

データを追加

テンプレート DB

10

Page 12: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

ビッグデータ処理では、異なるデータ処理タイプを使いこなす、 複数の分析者や開発者(スキル)が必要

リアルタイム処理 バッチ処理

Hadoopスキル 開発者

CEPスキル 開発者

並列設計 スキル開発者

分析の専門家 業務責任者 (ビジネスユーザ)

相談

別々の 記述言語、 異なるUI バッチ用

記述言語

イベント処理用 記述言語

並列 アプリ設計

Hadoop: オープンソースの並列バッチ処理基盤 CEP: Complex Event Processing 複合イベント処理

②ビッグデータ統合開発環境

11

Page 13: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

異なるデータ処理をつなぐ開発実行環境

開発・実行環境の統合機能 データ流れ図で、バッチ処理とリアルタイム処理を連携した開発が簡単・短期間に

複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

複合イベント処理 (CEP)

蓄積データ処理 (Hadoop)

配備/実行

②複合イベント処理の並列性抽出機能

①開発・実行環境の統合機能

配備/実行

Hadoop: オープンソースの並列バッチ処理基盤 CEP: Complex Event Processing 複合イベント処理

データ流れ図

購買分析 ターゲット 絞込み

位置情報 POS クーポン発行

分析 活用 分析結果を反映

12

Page 14: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

開発実行環境の統合機能:解決技術

プログラムの自動生成、配備/実行技術 データ流れ図とプロパティの定義から、プログラムを自動生成。

プログラム及びデータを各実行環境へ配備して実行。

プロパティ

業務責任者

(ビジネスユーザ)

処理定義

バッチ処理プログラム

各処理の

パラメータを定義

自動生成

パターン群

プログラムを自動生成

処理内容に応じて処理を補完

データ流れ図

リアルタイム処理実行環境 (CEP)

バッチ処理実行環境 (Hadoop)

配備/実行

リアルタイム処理プログラム

配備/実行

代表的な処理を含む

60種類以上のパターン

・リアル処理 ⇒ 蓄積データ

・バッチ処理 ⇒ イベントデータ

・蓄積データとイベントデータの結合

・・・

処理種別判定

リアルタイム処理

バッチ処理

Hadoop: オープンソースの並列バッチ処理基盤 CEP: Complex Event Processing 複合イベント処理

13

Page 15: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

開発実行環境の統合機能:効果

POS分析によるクーポン発行の事例で、開発作業を評価

総作業期間: 8週間 ⇒ 1.5週間 に短縮

適用前 適用後

8週間 1.5週間

実装技術習得

分析手順定義

システム実装

2週間

2週間

4週間 不要

不要

①開発・実行環境の

統合機能

並列設計 数日間 ②並列性抽出機能

分析手順定義 個別実装

データ 流れ図

購買動向 分析

位置と好みで クーポン発行

バッチ リアル

業務責任者 開発者 業務責任者

購買動向 分析

開発者

位置と好みで クーポン発行

異なる 記述

並列 アプリ設計

バッチ リアル

開発者

14

Page 16: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

3.データ処理技術

各種センサー

携帯機器

ソーシャルメディア

企業内データ

データ

Twitterなど 分析 テキスト分析

シミュレーション

最適化技術

予測

データ処理 並列インクリメンタル処理

並列イベント処理 大量データ処理技術

収集

センサー

ワイヤレス

データ最適化

セキュリティ

活用 社会問題(エネルギー、人口等)

災害予防、医療

マーケティング

自律負荷分散ストレージ

その他

15

Page 17: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

ビッグデータ処理技術

①.「大量」のためのバッチ : Hadoop (MapReduce)

②.「即応性」のためのリアルタイム : CEP (複合イベント処理)

③.並列バッチの「即応性」を向上するインクリメンタル(順次)方式

④.自律負荷分散ストレージ

⑤.高速ファイル転送

大量

リアルタイム μ秒 m秒 秒 分 時

GB

TB

PB

ディス

メモ

センサー

イベント

ストリーム処理 CEP*

業務ログ

SNS

インメモリ処理 インメモリDB、分散キャッシュ

並列分散処理 Hadoop

非構造データ

従来技術

(RDB等)

CEP: Complex Event Processing インクリメンタル バッチ

並列CEP

16

Page 18: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

①.高性能・高信頼Hadoop統合商品

Hadoop ソフトウエア

サポート

サービス

情報収集・検知

情報分析

(Hadoop)

情報管理

統合

情報利用

開発支援・運用管理

データ活用基盤

情報交換

ノウハウを ベースに 商品化

センシング

ロギン

グ

抽出

ナビゲーション 呼出

活用

業界標準のApache Hadoopをベースにした

エンタープライズシステム向けビッグデータ活用基盤

(1)高性能・高信頼の実現

(2)スマートセットアップ

(3)安心して使える

17

Page 19: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

並列分散処理を実現

Interstage Big Data Parallel Processing Server

ETERNUS

Apache Hadoop

独自分散 ファイルシステム

HDFS互換 インターフェース

既存システム

アプリ ケーション

共有ファイルを介して

相互にデータ共有可能

データ

標準ファイル インターフェース

Interstage Big Data Parallel Processing Server

18

Page 20: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

信頼性と性能を大幅向上させた並列分散処理

Hadoop

HDFS

HDFS:Hadoop分散ファイルシステム

既存 システム

転送

転送

アプリ ケーション

Hadoop標準

ETERNUS

Hadoop

独自分散 ファイルシステム

新分散ファイルシステムを利用する場合

内蔵ディスク

既存 システム

アプリ ケーション

共有

HDFSより、I/O性能10倍を実現 当社モデルで全体の処理時間を1/5に短縮

Linux標準のファイルインタフェースによる容易なデータアクセス

ETERNUS等との組み合わせによる高信頼性・運用性向上

Hadoopに富士通独自のファイルシステムを採用

19

Page 21: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

マスターサーバの高信頼化

単一障害点のマスタサーバを二重化(自動セットアップ)

サーバ故障時に切り替えが高速

PRIMECLUSTER技術による可用性の向上

並列分散処理システム

ビッグデータ

マスターサーバ スレーブサーバ

メタデータ

(管理データ)

高速切替

継続利用

独自分散ファイルシステム 故障

20

Page 22: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

容易なバックアップ運用

既成のソフトウェアで大量データのバックアップ運用を実現

ETERNUSのハードウェア機能(OPC*)の利用

並列分散処理システム

ビッグデータ メタデータ

(管理データ)

独自分散ファイルシステム

バックアップ

ETERNUS

使い慣れたバックアップソフトウェアの利用

*OPC(One Point Copy)はある時点の業務ボリュームの全データを高速に複製ボリュームにコピーする機能

21

Page 23: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

大幅短縮

スマートソフトウェアテクノロジー

大幅な導入時間の短縮

(OSS比 10分の1)*

スマートセットアップ

使いやすいソフトウェアの追求

・・・ 70H

7H

*:当社モデルによるApache Hadoop比 V1.0より段階的に提供

コピー

3.5時間 (手作業)

2.0時間 (自動設定)

スマートオペレーション* HW/OS/MWの監視と一括操作の機能をビルトイン

環境 設定

OS/Hadoop

インスト-ル

環境 設定

OS/Hadoop

インスト-ル

(20台構成)

・・・

22

Page 24: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

全国POS端末(5000店舗: 従来の10倍)

集信サーバ

並列分散処理の適用効果

RDBベースのシステムと比較してシステム価格を低減

独自の分散ファイルシステムの適用により、

既製のソフトウェアで大量データのバックアップ運用を実現

並列分散処理サーバ

分析処理

アプリケーション

数十TB/5年分

•POSデータ

•商品マスタ

•会員マスタ

Interstage Big Data

Parallel Processing

Server 毎日分析

バックアップ

23

Page 25: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

②. 複合イベント処理(CEP)

アドホック・クエリ

結果

データ

結果

データ

継続的クエリ

メモリ RDBを使った

トランザクション処理

CEPエンジンを使った

リアルタイム処理

RDB:Relational Data Base CEP:Complex Event Processing

スマート

シティ

交通 健康機器

定点カメラ

スマホ

気象衛星

物流センサー

情報収集・検知

ル ー ル

イベント

入力 呼出

状態

状態遷移 センシング

(ストリーム)

ナビゲーション

(制 御)

ビッグデータ 役立つ情報を適切に知らせる 役立つ情報を抽出する

家への

侵入は

ありません

もうすぐ

この辺りで

集中豪雨が

あります

A道路は

渋滞中、

B道路を

勧めます

お子さんが

登下校コース

を離れ、C公園

にいます

D店から

半額クーポン

が発行され

ました

複合イベント処理(CEP)

出典: 森下民平、データストリーム管理システム、CAC 、SOFTECHS

ディスク

24

Page 26: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

CEPエンジンの動的分散 絶え間なく送られてくる時系列データを、リアルタイムに処理

「処理状態」を保持したままで、高速に処理を移動

従来の動的負荷分散方式は、CEPエンジンの拡縮には不適合

Webアプリのスケールアウト方式では、処理状態を引き継げない

仮想マシン(VM)のライブ・マイグレーションは、移動時の負荷・遅延が大きい

CEPエンジン性能向上の課題

従来 新規処理 既存処理

負荷増加時(拡張)

VM … … VM VM VM VM

負荷減少時(縮退)

新VMを割当て

CEP: Complex Event Processing

25

Page 27: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

中間処理状態を維持する、動的負荷分散技術

処理単位を、クエリ+データに細粒度化し、負荷増減に対応し、CEPエンジン間で高速移動

毎秒500万イベントの高スループットを達成(シンプルなクエリ@60台VMの場合)

各人の位置情報が5秒毎に届く場合、「2,500万人」を処理できる性能

並列CEPエンジンの動的負荷分散技術

イベント入力

初期配置 並列CEPエンジン マネージャ

振分け (ロケータ) 振分マップ動的変更

:クエリ+データ

CEPアプリ (クエリグラフ)

<クラウド/オンプレミス(自社設置)システム>

:並列CEPエンジン イベント出力

拡張/縮退を 動的制御

26

Page 28: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

バッチ(一括)方式

蓄積 一括処理

到着

蓄積データ全体を処理するため

処理によって数時間~数日かかる

その間、最新情報を活用できない

例: 数時間かかる夜間バッチの場合

反映時刻

到着時刻

24時間 数時間

反映時刻

到着時刻

即時

低頻度

頻度が高いと処理が追いつかず破綻

遅延

高頻度

破綻

活用

ウェブサイト等

必要最小限の処理で結果に反映するため

即時に最新情報を活用できる

インクリメンタル(順次)方式

新着データをその都度、順次処理し 分析結果を直接アップデート

到着 活用

ウェブサイト等

③. インクリメンタル方式

27

Page 29: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

開発した技術: 適応的データ局所化(ねらい)

0 1 2 3 4 5 6 7 8 9 ディスク上の

データの配置

0 1 2 3 4 5 6 7 8 9

データへの

アクセスの順序

ディスク上の

データの配置

アクセス順序をグラフとして解析

データへの

アクセスの順序 0 3 4 7 1 4 6 0 3 6 7 1

0 3 4 7 1 4 6 0 3 6 7 1

ランダムアクセス

グループ化

(局所化) 並び替え

0 3 7

4

6

1

連続アクセスとなり

ディスクアクセス削減

28

Page 30: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

開発した新技術: 適応的データ局所化

分析時のデータアクセス (アプリはキー・バリューとして

データにアクセス)

キー・バリュー単位で アクセス履歴を記録

最適な配置を計算

キー・バリューを 動的に再配置

ディスクI/Oを 大幅に削減

特徴: 低オーバヘッド

実運用中に適用可

アクセス履歴ベース

業務の知識不要

適応的

傾向の変化にも追従

(複数のキー・バリューの組を 一つのファイルに格納)

キー・バリュー

29

Page 31: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

適応的データ局所化による I/O 削減の様子

累計データアクセス数: 0(初期状態) ディスク I/O発生率: 100%

終点のデータ項目(1800万件)

起点

のデ

ータ

項目

(1800万

件)

累計データアクセス数: 500,000 ディスク I/O発生率: 53% 累計データアクセス数: 1,000,000 ディスク I/O発生率: 46% 累計データアクセス数: 1,500,000 ディスク I/O発生率: 31% 累計データアクセス数: 2,000,000 ディスク I/O発生率: 19% 累計データアクセス数: 2,500,000 ディスク I/O発生率: 14% 累計データアクセス数: 3,000,000 ディスク I/O発生率: 8.8% 累計データアクセス数: 3,500,000 ディスク I/O発生率: 6.8% 累計データアクセス数: 4,000,000 ディスク I/O発生率: 4.9%

ディス

クI/

O発

生率

累計データアクセス数

累計データアクセス数: 4,500,000 ディスク I/O発生率: 3.4% 累計データアクセス数: 5,000,000 ディスク I/O発生率: 2.8%

本技術

従来のキャッシュ技術(約35%)

約1/10に削減

【想定適用シーン】 オンライン商店での商品推薦

「○○を買った人は□□も買っています」 顧客×商品の分析を常にアップデート

30

Page 32: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

センセーショナルな事件が起きた時、Webサーバなどでは特定データに対する負荷集中による性能低下がしばしば起こる。

※ある有名ポップスターの大ニュース発生時前後1日でのWikipediaへのアクセスを模したシミュレーション結果

有名スターの大ニュース

記事が 見てみたい

私も

あれ、 つながらない・・・

HDD HDD

HDD HDD

HDD HDD

HDD HDD

インターネット

HDD 関連 記事

HDD HDD HDD

分散ストレージ

関連 記事

関連 記事

記事を持っている特定サーバ のみレスポンスが低下

ニュースにより、関連記事を持っているサーバのみ急激なアクセス集中

アク

セス

頻度

(回

/秒

)

時刻

0

20

40

60

80

100

120

140

160

180

200

0:00 12:00 0:00 12:00 0:00

それぞれのラインは、各サーバのアクセス頻度の時間変化を示す

1

2.3

④.自律負荷分散ストレージ

31

Page 33: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

負荷集中が起きているデータのレプリカ数を動的に増加させ、 アクセスを分散させる。

富士通研究所の開発技術

①省メモリで急激な負荷集中を検出する技術

②人気データのレプリカ数を適切に増減させる技術

解決手段:レプリカ数動的調整機構

⇒ 急激なアクセス集中でもレスポンスの悪化を回避!

急なアクセス集中を検出し30個レプリカ追加し負荷分散

アク

セス

頻度

(回

/秒

)

時刻

0

20

40

60

80

100

120

140

160

180

200

0:00 12:00 0:00 12:00 0:00

1

0.7

アクセス集中を70%縮減

HDD HDD

HDD

HDD

HDD

HDD

HDD

HDD

インターネット

HDD 関連

記事

HDD HDD HDD

分散ストレージ

関連

記事

関連

記事

関連

記事

関連

記事

アクセス集中データのレプリカを増やして負荷分散

32

Page 34: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

(1)省メモリで急激な負荷集中を検出する技術

データの個数

メモリ

使用量

メモリ

使用量 メモリ利用量は 常に一定

データの個数

データの個数に 比例して

メモリ使用量が増大

データの個数が多い場合にはメモリに載らず適用できない

ビッグデータでも

限られたメモリでOK!

従来:全データのアクセス状況を管理 本技術:一定個のデータのみを利用

33

Page 35: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

人気度推定エンジン

膨大なデータから急激なアクセス集中が起きた人気データを省メモリで迅速に検出 アクセスがあったデータを、アクセス数とともに固定個数だけ記録

記録にないデータにアクセスがあった場合、最小アクセス数のデータと入れ替え。その時アクセス数を引き継ぐ。

一定アクセス回数ごとに、記録したアクセス数を1/nに縮減。最近のアクセスを重くカウント

記録したアクセス数の比率から人気度を算出

・・・

データアクセス

リクエスト アクセス数

2

2

1 アクセス数を定期的に縮減

人気度推定エンジン

•固定個数のデータのみを管理

•新データへのアクセスは、最小アクセス数を引き継ぎ、入れ替えることで精度を保証

•最近のアクセス傾向を強く反映する重み付きの人気度

人気度

40%

34

Page 36: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

(2)人気データのレプリカ数を適切に増減させる技術

アクセス集中の激しさに合わせて、増減させるレプリカ数を制御

人気検出と予兆を判定する2つの閾値で、アクセス増加中の期間を検出

その期間のアクセス頻度の大きさに応じて、増加レプリカ数を決定

アクセス集中度分析機構

アクセス 頻度算出

時刻

人気度

アクセス集中

検出閾値

予兆閾値

データA データB

レプリカ増加数

アクセス

頻度

アクセス頻度が大きいほど、レプリカを多く増加させる

アクセス増加中の期間を算出

アクセス情報

人気の出方に違いがあるデータAとデータBの増加レプリカ数決定の例

アクセス増加中の

アクセス頻度を算出 35

Page 37: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

ある有名ポップスターの大ニュース発生時前後1日でのWikipediaへのアクセスを模したシミュレーションで、アクセス時間の変化を測定

アクセス集中が起こると、全データへのアクセス時間が、従来は約4倍に悪化。本技術の適用により約1.2倍に抑制

アクセス集中しているデータ自身へのアクセス時間は、従来は約15倍に悪化。本技術の適用により約1.4倍に抑制

シミュレーション評価結果

アクセス集中あり時

(人気データ)

アクセス集中なし時

(全データ)

アクセス集中あり時

(全データ)

0

2

4

6

8

10

12

14

16

相対アクセス時間

従来方式

本技術適用方式

4倍

15倍

1.2倍 1.4倍

36

Page 38: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

<市場動向:グローバル化>

・ 海外市場の売上比率が増加し、海外とのデータ連携が活発化

・ データ統合が進み、拠点からの参照、ダウンロードが増加

<課題>

・ インターネットを経由すると回線品質が悪く、通信エラーになる場合が多い

・ アプライアンス製品ではコストがかさみ、小さな拠点には導入できない

<ニーズ> ・ グローバルなビジネスシーンで、コストをかけずにデータ連携したい ・ 遠隔地の拠点からのデータ参照、ダウンロードを時間をかけずに行いたい

Interstage Information Integratorは、 これらのお客様の声にお応えします。

⑤高速ファイル転送

37

Page 39: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

遠隔地の大量データをスピーディに活用 ■WAN帯域を最大限利用し遠隔地からデータ収集を高速化

■データ抽出/変換/格納で処理するデータをブロック単位で

メモリ渡しすることで高速化

*Interstage Information Integratorファイル転送エージェント

III V10.4 Windows版:2012年8月(出荷済み)

Linux版 :2012年10月予定

Solaris版:2012年11月予定

38

Page 40: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

課題② RTT が大きい程、

通信速度が下がる

遠隔通信の問題

通信距離が長くなること等によるRTT の増加に伴い、送達確認に必要な時間が多く必要となる。

送信側 受信側

データ

ACK

データ

RTT

RTT

RTT(ms)

通信速度

(bps)

大容量のデータ転送の問題

ACK

(Round Trip Time:往復遅延時間 )

TCPファイル転送処理の課題

送信側 受信側 データ

ACK

ACK

データ

データ

ACK

パッケット受信に対し

送達確認を返す

課題① 大容量データの転送は、送達確認

回数が多く転送に時間がかかる。

無駄時間による 転送速度の低下

×高品質だがスピードが遅い

39

Page 41: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

送信 受信 ③ パケットロス

③ パケットの入れ替え

データ転送の信頼性問題

×スピードは速いが 信頼性が低く且つ 回線を占有してしまう

UDPファイル転送の課題

④ 回線の占有

課題③

TCPの様に受信応答を返さないため、

途中でパケットがロスしたりパケットが入れ替わっても送信側で検知できない。

課題④

UDPプロトコルの特性として、回線帯域を占有してしまうため、

他の業務データの転送が待ちになる。

40

Page 42: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

独自技術で高速化(RPS:RandomParityStream)

送信側 受信側

送信

データ

RPS

符号化

受信完了の通知まで

冗長データを生成

受信

データ

パケット ロス

RPS

復号

完了通知

冗長データ

UDP転送 (課題①②を解決)

帯域制御 (課題④を解決)

元の データ

※5%のロス率の場合、生成される冗長データの数は5~7%程度

再送が不要なため、高速にデータを転送可能

冗長データを送信し、ロスした元データを受信側で復元

弊社特許 ※RPS:消失訂正技術

(課題③を解決)

41

Page 43: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.

<ご参考> 富士通ビッグデータ向けソフト製品群

業種・業務ソリューション

運用管理

PRIMERGY/PRIMEQUEST ETERNUS

:新製品(‘12.4/23)

Big Data Platform

Big Data Middleware

ISV OSS

: :

クラウド型サービスと同じ機能を体系的に提供

Interstage Big Data Parallel Processing Server

Interstage Big Data Complex Event Processing Server

Interstage Business Analytics Modeling Server

Interstage eXtreme Transaction Processing Server Symfoware Server

42

Page 44: ビッグデータを活用する 情報センター向け技術...複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上

Copyright 2012 FUJITSU LIMITED. 43 43 Copyright 2010 FUJITSU LABORATORIES LIMITED Copyright 2010 FUJITSU LABORATORIES LIMITED

Copyright 2010 FUJITSU LIMITED Copyright 2010 FUJITSU LIMITED 43 43