33
ビッグデータアナリティックス 中村 NAIST 知能コミュニケーション研究室 鈴木 NAIST 多元ビッグデータプロジェクト/知能コミュニケーション研究室 田中 宏季 NAIST 多元ビッグデータプロジェクト/知能コミュニケーション研究室 吉野幸一郎 NAIST 知能コミュニケーション研究室 岩爪 道昭 情報通信研究機構 高橋哲朗 富士通研究所 櫻井一貴 リクルートテクノロジーズ 石川 信行 リクルートテクノロジーズ 西村 隆宏 リクルートテクノロジーズ

NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータアナリティックス

中村 哲 NAIST 知能コミュニケーション研究室鈴木 優 NAIST 多元ビッグデータプロジェクト/知能コミュニケーション研究室田中 宏季 NAIST 多元ビッグデータプロジェクト/知能コミュニケーション研究室吉野幸一郎 NAIST 知能コミュニケーション研究室

岩爪 道昭 情報通信研究機構

高橋哲朗 富士通研究所

櫻井一貴 リクルートテクノロジーズ石川 信行 リクルートテクノロジーズ西村 隆宏 リクルートテクノロジーズ

Page 2: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

データアナリティクスとは

o ビールとおむつ

o 「米国の大手スーパーマーケット・チェーンで販売データを分析した結果、顧客はおむつとビールを一緒に買う傾向があることが分かった。」

o 「調査の結果、子供のいる家庭では母親はかさばる紙おむつを買うように父親に頼み、店に来た父親はついでに缶ビールを購入していた。そこでこの2つを並べて陳列したところ、売り上げが上昇した」

2017/10/4 Satoshi NAKAMURA@AHC,NAIST 2

Page 3: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータアナリティクス

o ビッグデータとはなんだろう?

o 大きいってどのぐらい?

o どんなデータのことなの?

o なにが研究として新しいの?

o なにがすごいの?

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 3

Page 4: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

本講義の構成

第1回 10/6 中村・田中特任助教 ビッグデータ解析概論・検定の理論

第2回 10/13 岩爪先生 クローリング、ランキング

第3回 10/20 鈴木特任准教授 Apache Sparkによる分散計算

第4回 10/27 吉野助教 ビッグデータのための機械学習

第5回 11/10 櫻井・石川・西村先生 リクルート式 データ利活用の実際リクルートテクノロジーズ

第6回 11/17 高橋先生(富士通) ソーシャルメディアアナリティクス

第7回 11/24 課題発表会1 (第3,4回 鈴木+吉野分)

第8回 11/29 課題発表会2 (第6回 松井・林先生分)

©Satoshi Nakamura, NAIST, all right reserved. 4

Page 5: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

単位の取り方

o 各講義の出席、演習、レポート、プレゼンテーション

から成績を出します。

©Satoshi Nakamura, NAIST, all right reserved. 5

Page 6: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

進め方

o グループにわかれて演習を行う

o グループ分けは2回目から

o 研究室でグループをつくって良い(相談、作業がしやすいように)

o グループは必ずしも固定しない

o 課題発表レポートでは、自分が何を担当したかを明記

©Satoshi Nakamura, NAIST, all right reserved. 6

Page 7: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

大規模Web情報処理岩爪 道昭(情報通信研究機構)

o Webは、今や我々の生活に欠くことの出来ない経済・社会インフラとなっており、実世界の写し鏡として、日々莫大な情報が流通している。本講義では、最も身近なビッグデータの一つとして、大規模なWeb情報を利活用するために不可欠な基盤技術とその応用について、具体的な研究開発事例を交えながら概説する。

o 主なトピック(予定)

• 導入:ビッグデータとしてのWeb

• 大規模Webクローリング

分散並列クローリング

• 大規模Web解析のための基盤技術

大規模Webアーカイブのためのデータストア、大規模リンク解析

• ビッグデータとしてのオープンデータ

オープン・リンクド・データ

• 大規模Web情報処理を支える計算機基盤の構築と運用 等

©Satoshi Nakamura, NAIST, all right reserved. 7

Page 8: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

Apache Spark による大規模データ処理鈴木 特任准教授

o 担当: 鈴木 優 (NAIST)

o 概要: 大量のデータを分散処理する方法として, Apache Spark を活用する方法について探る.実際に Twitter などのデータを分析することによって,新しい関係性の発見を体験する.

o 進め方:o 10/20

o Apache Spark の解説.分析事例の紹介.分析対象データの紹介

o 分析テーマの設定(チーム単位)

o 11/24o 分析プログラム実行・評価(チーム単位)

o 分析結果・感想の共有(チーム単位)

Page 9: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータにおける機械学習吉野 助教

o 担当: 吉野 幸一郎 (NAIST)

o 概要: 大量のデータが利用可能になったことにより,機械学習を用いたデータ処理が注目されている.本講義では,機械学習の基本的な考え方,教師あり・教師なし学習の違い,基本的なアルゴリズムなどを解説する.また,実際のTwitter分析を例にとりどのように問題を設定・解決するかを体験する.

o 進め方:o 10/27

o 機械学習の概要,基本的なアルゴリズムの解説

o 分析テーマの設定(チーム単位) (“Apache Spark による大規模データ処理”と合同)

o 11/24:o 分析プログラム実行・評価(チーム単位)

o 分析結果・感想の共有(チーム単位)

©Satoshi Nakamura, NAIST, all right reserved. 9

Page 10: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ソーシャルメディアアナリシス技術高橋哲也(富士通研究所)

o 11月17日

o 分析とはo なぜビックデータか

o デイリーポータルZの紹介o 全体、フォーマット、処理

o 分析例

o Rを使って分析してみようo 宿題(テーマ課題、自由課題)

©Satoshi Nakamura, NAIST, all right reserved. 10

Page 11: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

リクルート式データ利活用石川信行/西村隆宏(リクルートテクノロジーズ)

o 11月10日, 11月29日

o 実際に行われているデータ解析を体験o 本当のデータを要求に応じて解析

o 課題・発表

o リクルートのサービスの紹介o どのようなデータが蓄積されていくのか

o 大規模データ解析プラットフォームについて

o 分析の実例

©Satoshi Nakamura, NAIST, all right reserved. 11

Page 12: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータアナリティクス

o ビッグデータとはなんだろう?

o 大きいってどのぐらい?

o どんなデータのことなの?

o なにが研究として新しいの?

o なにがすごいの?

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 12

Page 13: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータとは-①

©Satoshi Nakamura, NAIST, all right reserved. 13情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

E-Science データDNA, 病気、

気象、宇宙観測、分子配列 等

Page 14: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータとは-①

©Satoshi Nakamura, NAIST, all right reserved. 14情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 15: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

どのぐらいの大きさか-②

©Satoshi Nakamura, NAIST, all right reserved. 15情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 16: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

センサーの進化

©Satoshi Nakamura, NAIST, all right reserved. 16情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 17: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータとは-③

©Satoshi Nakamura, NAIST, all right reserved. 17情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 18: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータ処理の構成技術①

©Satoshi Nakamura, NAIST, all right reserved. 18情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 19: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータ処理の構成技術②

©Satoshi Nakamura, NAIST, all right reserved. 19情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 20: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビッグデータ処理の構成技術③

©Satoshi Nakamura, NAIST, all right reserved. 20

センサーデータ Blogs, E-mail Web Data Docs, PDFs Images/Videos

高速ネットワーク, データ、アクセス

クローリング、フィルタリング

データセンタNoSQL, Hbase, Hive

大規模分散フレームワークHadoop, Map Reduce

大規模Webアプリケーション、HTML5

メタデータ設計

スケジューリング

開発言語、SDK

大規模プロジェクトマネジメント、PMBOK

ネットワーク・データ, セキュリティ

非構造化・ストリームデータ処理分散OS,ファイル、並列プログラミング翻訳、意味解析, 知識獲得構造化

評判、信頼性分析

テキスト、画像、音声 超大規模パターン認識、機械学習

データマイニング, Linked Data, Deep QA

マルチレイヤオーバーレイネットワーク

サイバーセキュリティ, プライバシー保護技術

メディア情報処理系研究課題

コンピュータサイエンス系研究課題

プログラマ科学者 コンサルタント ビジネスユーザ 一般ユーザ

アプリケーション例

検索/QA レコメンデーション ナビゲーション

知識獲得・抽出 関連分析 信憑性分析

Page 21: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

ビジネス分析手法の変遷

o ビッグデータ ⇒ ビジネスへの波及o 金融工学、マーケティング

o 1960年から70年代o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析

o 1980年から90年代o 購入履歴データを利用して購買行動を分析

o RFM分析

o 1990年から現代o インターネットで取得できる顧客情報とサイト内の行動を分析

©Satoshi Nakamura, NAIST, all right reserved. 21

Page 22: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

RFM分析

o RFM分析は顧客のこれまでの購買行動・購買履歴から、優良顧客の抽出などを行う顧客分析手法のひとつ。

o 企業は自社の顧客データベースおよび購入履歴を対象に、前回の購入からどれだけ時間が経っているか、これまでに何回購入したか、その人が顧客となってからいくら使ったかを基準にして分類する。

o 具体的には以下の3つの観点から指標化し、顧客を分類する。

o R(Recency:最終購買日)

o 直近でいつ買ったか

o F(Frequency:購買頻度)

o どのくらいの頻度で買っているか

o M(Monetary:累計購買金額)

o これまでにいくら使っているか

©Satoshi Nakamura, NAIST, all right reserved. 22

Page 23: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

マーケットバスケット分析

o トランザクション(取引)を分析して、同時に購入される商品の組み合わせの分析を行う。

o アソシエーション分析

o アソシエーションルール「おむつ(X)⇒ビール(Y)」

o 信頼度 =条件節 𝑋 と結論 𝑌 をともに含むトランザクション数

前提𝑋を含むトランザクション数

o 支持度 =条件 𝑋 と結論 𝑌 を含むトランザクション数

全トランザクション数

⇒ 支持度が高く、信頼度が高い関係をみつける

o アプリオリアルゴリズムo 高速に関係を見つけるアルゴリズム

2017/10/4 Satoshi NAKAMURA@AHC,NAIST 23

Page 24: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

データアナリティクスのプロセス

o CRISP-DM Cross Industry Standard Process for Data Mining

(DaimlerChrysler, NCR, SPSS, Consortium)

① Business Understanding

② Data Understanding

③ Data Preparation

④ Modeling

⑤ Evaluation

⑥ Deployment

©Satoshi Nakamura, NAIST, all right reserved. 24

推論、問題解決(AI)

← 仮説

← 検証←検定

Page 25: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

データアナリティクス+AIシステム

2017/10/4 Satoshi NAKAMURA@AHC,NAIST 25

データベース

観測データ

座標、音声、画像…

インタフェース部

可視化

データアナリティクス

推論・問題解決(AI)

知識ベース、

Wiki-pedia

Page 26: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

データアナリティクス+AI技術

o クラスタリングシステム

o クラスタリング、k-NN, Aprioriアルゴリズム、連想規則

o 分類システム、パターン認識システム

o ベイズ識別、SVM、決定木、ランダムフォーレスト、深層学習

o 系列データ識別

o HMM, CRF, RNN, LSTM

o 従属性判定システム

o アソシエーション分析、相関分析

o 回帰システム

o Logistic 回帰, SVR, CART, DNN

o 検定技術

o 可視化システム

2017/10/4 Satoshi NAKAMURA@AHC,NAIST 26

Page 27: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

データサイエンティストリテラシー

o データ分析ソフトウェア

o Excel, R

o BI tools (SAS Enterprise Miner, IBM Cognos, Oracle Business Analytics, SAP Business Objects, Microsoft SQL, …)

o AI Tools: Weka, Chainer, Tensorflow, Python, Scikit-learn, etc.

o データの取得

o データベースから取得(MySQLなどの構造化データ、非構造化データ)

o Web から取得 (APIの利用、Webページスクレイピング)

o CSV ファイルからの取得

©Satoshi Nakamura, NAIST, all right reserved. 27

Page 28: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

Rでデータ解析

o R言語; オープンソース

o データ取得

o 統計解析

o 基本統計量、検定

o 多変量解析;主成分分析、多次元尺度構成法

o 回帰モデル;重回帰、ロジスティック回帰

o 機械学習;SVM,決定木、ランダムフォーレスト、深層学習

o データの可視化

o 棒グラフ、円グラフ、レーダーチャート…

©Satoshi Nakamura, NAIST, all right reserved. 28

Page 29: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

データサイエンティストのスキル

o ハードスキル

o Data Understanding, Data Preparationo RDBMS, SQL, Hadoop, JAVA, HDFS, MapReduce, Hive, Linux

o Modeling, Evaluationo 統計解析、機械学習、R, Python, Perl, GUI

o ソフトスキル

o Bussiness Understanding, Data Understandingo 関係者へのヒアリング、質問力、理解力、傾聴力

o Deploymento 情報伝達力、説明力、説得力、プロジェクト推進力

©Satoshi Nakamura, NAIST, all right reserved. 29

Page 30: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

データサイエンスの成功条件

o KKD と KDD

o KDD: Knowledge Discovery in Databases

o KKD: 勘と経験と度胸

o 両者を統合する!

o 統計的な正確さよりビジネスの成功を

o 共変関係と因果関係を見極める

o 人的ナレッジを活用する

o データ品質の検証

o データの蓄積システムを準備する

©Satoshi Nakamura, NAIST, all right reserved. 30

Page 31: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

31

多元ビッグデータ解析に基づく知の創出研究拠点事業-データ解析の世界的研究・教育拠点の創出- (平成28年度~平成31年度)

バイオサイエンス分野(バイオ情報データ)

物質創成科学分野(物質情報データ)

情報科学分野(社会情報データ)

実世界を反映させたモデルの生成共通モデルの組合せ+独自モデル

データの分析・可視化多くの課題に共通した分析+独自分析

知の循環

・データから知見を得る手法を持つ人材を育成・知識力,分析力,洞察力,創造力,生産力・データの特性を理解するために必要な各分野の知識・大量のデータを効率良く扱うための知識

データサイエンティスト育成

データを活用するための要素に関する技術

・匿名化・データベース・機械学習・統計・人工知能・大規模演算処理

現状では、データは各研究科内でデータ処理データサイエンス手法は活用されていない

データサイエンス基盤構築共通課題の解決

企業(購買履歴データ)

官公庁(HEMSデータ)

膨大な未利用データ活用手法が不在

複数課題に共通する課題を抽出・解決

消費電力可視化

購買履歴可視化

データ量の増加

戦略1:先端科学技術を先導する研究の推進研究大学としての国際的な地位を確立するため、IRを活用した全学的視点からの研究マネジメントの下、現在の科学技術の基盤である情報・バイオ・物質とその融合領域において世界レベルの先端研究を推進し、科学技術の変革を牽引する。

背景

取 組

データサイエンスによる課題解決手法の確立により、今まででは得られなかった新たな科学的発見による知的価値を創造し、事実だけではなくその理由や根拠についても探求・応答できるシステムを構築

31

Page 32: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

32

データ駆動型サイエンス創造センター(2017.4-2022.3)

データサイエンスプログラム

戦略1:先端科学技術を先導する研究の推進研究大学としての国際的な地位を確立するため、IRを活用した全学的視点からの研究マネジメントの下、現在の科学技術の基盤である情報・バイオ・物質とその融合領域において世界レベルの先端的研究を推進し、科学技術の変革を牽引する。

科学のパラダイムが、仮説駆動型からデータ駆動型へシフトしつつある中、既存組織の見直しと再編を図り、新たに「データ駆動型サイエンス創造センター」を設置することにより、情報・バイオ・物質及びその融合領域において世界レベルの先端的研究を推進し、最先端の科学技術の研究と活用を担う人材を育成するとともに研究成果の社会実装を行い、大学全体の経営力強化を牽引する教育研究改革のための組織整備を行う。

センターによるデータ駆動型サイエンスの組織的推進

バイオサイエンス物質創成科学

新たな研究領域の開拓

企 業 群

1研究科体制への移行(平成 3 0年度)に対応した全学の教育と研究の共通基盤

による

の改

革 教 育

社会実装

バイオインフォマティクスマテリアルズ・インフォマティクス

融合研究

研究科体制

【未来投資戦略2017(平成29年6月9日閣議決定)】大学の数理・データサイエンス教育の強化、工学教育改革等・数理・データサイエンス教育を全学的に推進「学」の中核機能の強化・新たな産官学連携の集中管理体制の構築

【第5期科学技術基本計画 (平成28年1月22日閣議決定)】未来の産業創造と社会変革に向けた新たな価値創出の取組・データ解析等の基本的知識を持ちつつビッグデータやAI等の基盤技術を新しい課題の発見・解決に活用できる人材等の強化

関連す る政府方針等取 組

企業等との連携による社会実装のハブ機能を発揮

情報・バイオ・物質の3分野及びその融合領域に横断的な教育研究を展開することにより、研究の深化及び新たな研究領域を創出

専門分野の枠を超えた数理・統計学に関する総合的かつ体系的な教育を実施

機 能

指標:民間企業等との大型共同研究

機 能

機 能

研究の深化

情報科学

クロスアポイントメント教員の採用

人材・知・資金の好循環

連 携

共同研究の増加と成果の社会実装による大学の経営力強化

Page 33: NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として,Apache Spark を活用する方法について探る.実際にTwitter

最後に

o “重要なことは、正しい答えを見つけることではなく、正しい問いを見つけることである”- ドラッカー

©Satoshi Nakamura, NAIST, all right reserved. 33