NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として，Apache Spark を活用する方法について探る．実際にTwitter

ビッグデータアナリティックス

中村哲 NAIST 知能コミュニケーション研究室鈴木優 NAIST 多元ビッグデータプロジェクト／知能コミュニケーション研究室田中宏季 NAIST 多元ビッグデータプロジェクト／知能コミュニケーション研究室吉野幸一郎 NAIST 知能コミュニケーション研究室

岩爪道昭情報通信研究機構

高橋哲朗富士通研究所

櫻井一貴リクルートテクノロジーズ石川信行リクルートテクノロジーズ西村隆宏リクルートテクノロジーズ

データアナリティクスとは

o ビールとおむつ

o 「米国の大手スーパーマーケット・チェーンで販売データを分析した結果、顧客はおむつとビールを一緒に買う傾向があることが分かった。」

o 「調査の結果、子供のいる家庭では母親はかさばる紙おむつを買うように父親に頼み、店に来た父親はついでに缶ビールを購入していた。そこでこの2つを並べて陳列したところ、売り上げが上昇した」

2017/10/4 Satoshi NAKAMURA@AHC,NAIST 2

ビッグデータアナリティクス

o ビッグデータとはなんだろう？

o 大きいってどのぐらい？

o どんなデータのことなの？

o なにが研究として新しいの？

o なにがすごいの？

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 3

本講義の構成

第1回 10/6 中村・田中特任助教ビッグデータ解析概論・検定の理論

第2回 10/13 岩爪先生クローリング、ランキング

第3回 10/20 鈴木特任准教授 Apache Sparkによる分散計算

第4回 10/27 吉野助教ビッグデータのための機械学習

第5回 11/10 櫻井・石川・西村先生リクルート式データ利活用の実際リクルートテクノロジーズ

第6回 11/17 高橋先生（富士通）ソーシャルメディアアナリティクス

第７回 11/24 課題発表会１ (第３,４回鈴木+吉野分)

第８回 11/29 課題発表会２（第６回松井・林先生分）


単位の取り方

o 各講義の出席、演習、レポート、プレゼンテーション

から成績を出します。


進め方

o グループにわかれて演習を行う

o グループ分けは2回目から

o 研究室でグループをつくって良い（相談、作業がしやすいように）

o グループは必ずしも固定しない

o 課題発表レポートでは、自分が何を担当したかを明記


大規模Web情報処理岩爪道昭（情報通信研究機構）

o Webは、今や我々の生活に欠くことの出来ない経済・社会インフラとなっており、実世界の写し鏡として、日々莫大な情報が流通している。本講義では、最も身近なビッグデータの一つとして、大規模なWeb情報を利活用するために不可欠な基盤技術とその応用について、具体的な研究開発事例を交えながら概説する。

o 主なトピック（予定）

• 導入：ビッグデータとしてのWeb

• 大規模Webクローリング

分散並列クローリング

• 大規模Web解析のための基盤技術

大規模Webアーカイブのためのデータストア、大規模リンク解析

• ビッグデータとしてのオープンデータ

オープン・リンクド・データ

• 大規模Web情報処理を支える計算機基盤の構築と運用等


Apache Spark による大規模データ処理鈴木特任准教授

o 担当: 鈴木優 (NAIST)

o 概要: 大量のデータを分散処理する方法として， Apache Spark を活用する方法について探る．実際に Twitter などのデータを分析することによって，新しい関係性の発見を体験する．

o 進め方：o 10/20

o Apache Spark の解説．分析事例の紹介．分析対象データの紹介

o 分析テーマの設定（チーム単位）

o 11/24o 分析プログラム実行・評価（チーム単位）

o 分析結果・感想の共有（チーム単位）

ビッグデータにおける機械学習吉野助教

o 担当: 吉野幸一郎 (NAIST)

o 概要: 大量のデータが利用可能になったことにより，機械学習を用いたデータ処理が注目されている．本講義では，機械学習の基本的な考え方，教師あり・教師なし学習の違い，基本的なアルゴリズムなどを解説する．また，実際のTwitter分析を例にとりどのように問題を設定・解決するかを体験する．

o 進め方：o 10/27

o 機械学習の概要，基本的なアルゴリズムの解説

o 分析テーマの設定（チーム単位） (“Apache Spark による大規模データ処理”と合同)

o 11/24:o 分析プログラム実行・評価（チーム単位）

o 分析結果・感想の共有（チーム単位）


ソーシャルメディアアナリシス技術高橋哲也（富士通研究所）

o 1１月１7日

o 分析とはo なぜビックデータか

o デイリーポータルZの紹介o 全体、フォーマット、処理

o 分析例

o Rを使って分析してみようo 宿題（テーマ課題、自由課題）


リクルート式データ利活用石川信行/西村隆宏（リクルートテクノロジーズ）

o 11月10日, 11月29日

o 実際に行われているデータ解析を体験o 本当のデータを要求に応じて解析

o 課題・発表

o リクルートのサービスの紹介o どのようなデータが蓄積されていくのか

o 大規模データ解析プラットフォームについて

o 分析の実例


ビッグデータアナリティクス

o ビッグデータとはなんだろう？

o 大きいってどのぐらい？

o どんなデータのことなの？

o なにが研究として新しいの？

o なにがすごいの？

o じゃあ、どうやればいいのか教えてよ。


ビッグデータとは-①

©Satoshi Nakamura, NAIST, all right reserved. 13情報通信審議会新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード（第7回）会議資料

E-Science データDNA, 病気、

気象、宇宙観測、分子配列等

ビッグデータとは-①


どのぐらいの大きさか-②


センサーの進化


ビッグデータとは-③


ビッグデータ処理の構成技術①

©Satoshi Nakamura, NAIST, all right reserved. 18情報通信審議会新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード（第7回）会議資料情報通信審議会新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード（第7回）会議資料

ビッグデータ処理の構成技術②

©Satoshi Nakamura, NAIST, all right reserved. 19情報通信審議会新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード（第7回）会議資料情報通信審議会新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード（第7回）会議資料

ビッグデータ処理の構成技術③


センサーデータ Blogs, E-mail Web Data Docs, PDFs Images/Videos

高速ネットワーク, データ、アクセス

クローリング、フィルタリング

データセンタNoSQL, Hbase, Hive

大規模分散フレームワークHadoop, Map Reduce

大規模Webアプリケーション、HTML5

メタデータ設計

スケジューリング

開発言語、SDK

大規模プロジェクトマネジメント、ＰＭＢＯＫ

ネットワーク・データ, セキュリティ

非構造化・ストリームデータ処理分散OS,ファイル、並列プログラミング翻訳、意味解析, 知識獲得構造化

評判、信頼性分析

テキスト、画像、音声超大規模パターン認識、機械学習

データマイニング, Linked Data, Deep QA

マルチレイヤオーバーレイネットワーク

サイバーセキュリティ, プライバシー保護技術

メディア情報処理系研究課題

コンピュータサイエンス系研究課題

プログラマ科学者コンサルタントビジネスユーザ一般ユーザ

アプリケーション例

検索/QA レコメンデーションナビゲーション

知識獲得・抽出関連分析信憑性分析

ビジネス分析手法の変遷

o ビッグデータ ⇒ ビジネスへの波及o 金融工学、マーケティング

o 1960年から70年代o 購入時に得られた顧客の属性データ（住所、年代、性別）を分析

o 1980年から９０年代o 購入履歴データを利用して購買行動を分析

o ＲＦＭ分析

o 1990年から現代o インターネットで取得できる顧客情報とサイト内の行動を分析


RFM分析

o RFM分析は顧客のこれまでの購買行動・購買履歴から、優良顧客の抽出などを行う顧客分析手法のひとつ。

o 企業は自社の顧客データベースおよび購入履歴を対象に、前回の購入からどれだけ時間が経っているか、これまでに何回購入したか、その人が顧客となってからいくら使ったかを基準にして分類する。

o 具体的には以下の3つの観点から指標化し、顧客を分類する。

o R（Recency：最終購買日）

o 直近でいつ買ったか

o F（Frequency：購買頻度）

o どのくらいの頻度で買っているか

o M（Monetary：累計購買金額）

o これまでにいくら使っているか


マーケットバスケット分析

o トランザクション（取引）を分析して、同時に購入される商品の組み合わせの分析を行う。

o アソシエーション分析

o アソシエーションルール「おむつ(X)⇒ビール(Y)」

o 信頼度 =条件節 𝑋 と結論 𝑌 をともに含むトランザクション数

前提𝑋を含むトランザクション数

o 支持度 =条件 𝑋 と結論 𝑌 を含むトランザクション数

全トランザクション数

⇒ 支持度が高く、信頼度が高い関係をみつける

o アプリオリアルゴリズムo 高速に関係を見つけるアルゴリズム


データアナリティクスのプロセス

o CRISP-DM Cross Industry Standard Process for Data Mining

(DaimlerChrysler, NCR, SPSS, Consortium)

① Business Understanding

② Data Understanding

③ Data Preparation

④ Modeling

⑤ Evaluation

⑥ Deployment


推論、問題解決（AI)

← 仮説

← 検証←検定

データアナリティクス＋AIシステム


データベース

観測データ

座標、音声、画像…

インタフェース部

可視化

データアナリティクス

推論・問題解決（AI)

知識ベース、

Wiki-pedia

データアナリティクス＋AI技術

o クラスタリングシステム

o クラスタリング、k-NN, Aprioriアルゴリズム、連想規則

o 分類システム、パターン認識システム

o ベイズ識別、SVM、決定木、ランダムフォーレスト、深層学習

o 系列データ識別

o HMM, CRF, RNN, LSTM

o 従属性判定システム

o アソシエーション分析、相関分析

o 回帰システム

o Logistic 回帰, SVR, CART, DNN

o 検定技術

o 可視化システム


データサイエンティストリテラシー

o データ分析ソフトウェア

o Excel, R

o BI tools (SAS Enterprise Miner, IBM Cognos, Oracle Business Analytics, SAP Business Objects, Microsoft SQL, …)

o AI Tools: Weka, Chainer, Tensorflow, Python, Scikit-learn, etc.

o データの取得

o データベースから取得(MySQLなどの構造化データ、非構造化データ）

o Web から取得（APIの利用、Webページスクレイピング）

o CSV ファイルからの取得


Ｒでデータ解析

o Ｒ言語；オープンソース

o データ取得

o 統計解析

o 基本統計量、検定

o 多変量解析；主成分分析、多次元尺度構成法

o 回帰モデル；重回帰、ロジスティック回帰

o 機械学習；SVM,決定木、ランダムフォーレスト、深層学習

o データの可視化

o 棒グラフ、円グラフ、レーダーチャート…


データサイエンティストのスキル

o ハードスキル

o Data Understanding, Data Preparationo RDBMS, SQL, Hadoop, JAVA, HDFS, MapReduce, Hive, Linux

o Modeling, Evaluationo 統計解析、機械学習、R, Python, Perl, GUI

o ソフトスキル

o Bussiness Understanding, Data Understandingo 関係者へのヒアリング、質問力、理解力、傾聴力

o Deploymento 情報伝達力、説明力、説得力、プロジェクト推進力


データサイエンスの成功条件

o KKD と KDD

o KDD: Knowledge Discovery in Databases

o KKD: 勘と経験と度胸

o 両者を統合する！

o 統計的な正確さよりビジネスの成功を

o 共変関係と因果関係を見極める

o 人的ナレッジを活用する

o データ品質の検証

o データの蓄積システムを準備する


31

多元ビッグデータ解析に基づく知の創出研究拠点事業-データ解析の世界的研究・教育拠点の創出- （平成28年度～平成31年度）

バイオサイエンス分野（バイオ情報データ）

物質創成科学分野（物質情報データ）

情報科学分野（社会情報データ）

実世界を反映させたモデルの生成共通モデルの組合せ＋独自モデル

データの分析・可視化多くの課題に共通した分析＋独自分析

知の循環

・データから知見を得る手法を持つ人材を育成・知識力，分析力，洞察力，創造力，生産力・データの特性を理解するために必要な各分野の知識・大量のデータを効率良く扱うための知識

データサイエンティスト育成

データを活用するための要素に関する技術

・匿名化・データベース・機械学習・統計・人工知能・大規模演算処理

現状では、データは各研究科内でデータ処理データサイエンス手法は活用されていない

データサイエンス基盤構築共通課題の解決

企業（購買履歴データ）

官公庁（HEMSデータ）

膨大な未利用データ活用手法が不在

複数課題に共通する課題を抽出・解決

消費電力可視化

購買履歴可視化

データ量の増加

戦略１：先端科学技術を先導する研究の推進研究大学としての国際的な地位を確立するため、ＩＲを活用した全学的視点からの研究マネジメントの下、現在の科学技術の基盤である情報・バイオ・物質とその融合領域において世界レベルの先端研究を推進し、科学技術の変革を牽引する。

背景

取組

データサイエンスによる課題解決手法の確立により、今まででは得られなかった新たな科学的発見による知的価値を創造し、事実だけではなくその理由や根拠についても探求・応答できるシステムを構築

31

32

データ駆動型サイエンス創造センター(2017.4-2022.3)

データサイエンスプログラム

戦略１：先端科学技術を先導する研究の推進研究大学としての国際的な地位を確立するため、ＩＲを活用した全学的視点からの研究マネジメントの下、現在の科学技術の基盤である情報・バイオ・物質とその融合領域において世界レベルの先端的研究を推進し、科学技術の変革を牽引する。

科学のパラダイムが、仮説駆動型からデータ駆動型へシフトしつつある中、既存組織の見直しと再編を図り、新たに「データ駆動型サイエンス創造センター」を設置することにより、情報・バイオ・物質及びその融合領域において世界レベルの先端的研究を推進し、最先端の科学技術の研究と活用を担う人材を育成するとともに研究成果の社会実装を行い、大学全体の経営力強化を牽引する教育研究改革のための組織整備を行う。

センターによるデータ駆動型サイエンスの組織的推進

バイオサイエンス物質創成科学

新たな研究領域の開拓

企業群

１研究科体制への移行（平成 3 0年度）に対応した全学の教育と研究の共通基盤

組

織

整

備

による

教

育

研

究

の改

革教育

社会実装

バイオインフォマティクスマテリアルズ・インフォマティクス

融合研究

研究科体制

【未来投資戦略2017（平成29年6月9日閣議決定）】大学の数理・データサイエンス教育の強化、工学教育改革等・数理・データサイエンス教育を全学的に推進「学」の中核機能の強化・新たな産官学連携の集中管理体制の構築

【第５期科学技術基本計画 (平成28年1月22日閣議決定)】未来の産業創造と社会変革に向けた新たな価値創出の取組・データ解析等の基本的知識を持ちつつビッグデータやＡＩ等の基盤技術を新しい課題の発見・解決に活用できる人材等の強化

関連する政府方針等取組

企業等との連携による社会実装のハブ機能を発揮

情報・バイオ・物質の３分野及びその融合領域に横断的な教育研究を展開することにより、研究の深化及び新たな研究領域を創出

専門分野の枠を超えた数理・統計学に関する総合的かつ体系的な教育を実施

機能

指標：民間企業等との大型共同研究

機能

機能

研究の深化

情報科学

ｸﾛｽｱﾎﾟｲﾝﾄﾒﾝﾄ教員の採用

人材・知・資金の好循環

連携

共同研究の増加と成果の社会実装による大学の経営力強化

最後に

o “重要なことは、正しい答えを見つけることではなく、正しい問いを見つけることである”－ドラッカー


Documents

NAIST - ビッグデータアナリティックス...o 概要: 大量のデータを分散処理する方法として，Apache Spark を活用する方法について探る．実際にTwitter