53
Nov 2013 大規模離散計算科学特論 (11月8日) 白井 康之 (独)科学技術振興機構 ERATO 湊離散構造処理系プロジェクト [email protected] 1

大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

大規模離散計算科学特論 (11月8日)

白井 康之

(独)科学技術振興機構 ERATO 湊離散構造処理系プロジェクト

[email protected]

1

Page 2: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

講義内容

自己紹介その他 (11月7日)

手法編 (11月7~8日)

(1-1)はじめに(全体概要)

(1-2)頻出パタンマイニングとその周辺

(1-3)決定木分析法とその周辺

事例紹介 (11月8日)

クレジットカード自動審査,行動履歴解析,健康生活支援,

アンケート分析など

ERATOセミナー(11月8日)

人気感度と多様性に基づく顧客のセグメント化とその応用

Page 3: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 3

公開版では,図表等のデータの一部が含まれていません.必要があればお問い合わせください.

Page 4: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 4

クレジットカード自動審査 (Credit Card Auto Assessment)

Page 5: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

クレジットカード入会審査とは?

5

• 男性

• 35歳

• 中小企業勤務

• 平社員

• 年収 350万

• 転職あり

• 家族(妻,子どもあり)

• 他社少額利用

• 男性

• 52歳

• 大企業勤務

• 部長

• 年収 1000万

• 転職なし

• 家族(妻のみ)

• 他社高額決済あり

高額利用は見込めないがリスクも少ない 限度額は低めで静観

高額利用が見込めるが,リスク大 限度額は低めで状況を都度モニタリング

昨今のクレジットカード業界では,「事故を起こさない」よりも「よく使う優良会員の発掘」に重点を移している.

Page 6: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

貸し倒れリスクの予測(Y軸)

決定木によるクラス分類

過去の入会者・申込者からサンプリング

目的変数は,正常者と(事故者+否認者)

信用管理上,明らかな承認者,否認者は除外

属性,外部信用状況を考慮

200程度のリーフ(セル)に分類

各リーフを分類し,リスクスコアとする.

各セルの情報は,途上与信管理に利用

収入

他社借入

年齢

少 多

無 有 高 低

有 無 良 悪

P(4)

P(3) P(5) N(1) N(2)

P(4) 信用状況

家族

6

Page 7: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

収益の予測(X軸)

職種

性別 業種

営業 内勤

女 男 サービス 製造

有 無 多 少

L1

L4 L6 L3 L5

L2 他社 借入

家族

モデルツリーによる収益予測

過去の入会者・申込者からサンプリング

目的変数は,収益(否認者については,外部情報等を利用して推計)

各リーフにおける回帰式をもとに,収益を予測.

各セルの情報は,途上与信管理に利用

L4:w1*借入額+w2*年齢+w3*{家族=有}

7

Page 8: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

入会審査の方法(具体例)

8

• 男性

• 35歳

• 中小企業勤務

• 平社員

• 年収 350万

• 転職あり

• 家族(妻,子どもあり)

• 他社少額利用

• 男性

• 52歳

• 大企業勤務

• 部長

• 年収 1200万

• 転職なし

• 家族(妻のみ)

• 他社高額決済あり

収益性の予測

貸し倒れ

リスク

Page 9: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

その他:大規模データ活用に関する話題

有効と思われるのは,不正使用検知(fraud detection)あるいはリアルタイムな利用監視(real-time monitoring).

現状は,過去分をバッチ処理で集約.会員をタイプに分類.主に人が作るルールベースで対応.

超大規模データと高速レスポンス 会員数は大手では5000万人規模. トランザクション数は,一人平均で年間10件程度とすると,

年間5億トランザクション. 1トランザクション1K byte とすると,500GB/年.数年分を蓄

積するとすると数TB.(従来は捨てていたデータ)

許容されるレスポンスタイムは1~2秒程度. CAT端末ですぐに検知しないといけないので.

9

Page 10: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 10

Page 11: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 11

ザッピングデータ解析

Page 12: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

Thatsping(ザッピングシステム)

<script type="text/javascript" src="http://thatsping.jp/thatsping.js">

Web Site

queries page-staying time

URL Date &Time Server

サイト管理者

Java Script Codes

Ranking of his/her own site

12

http://thatsping.com Blogwatcher Inc(ブログウォッチャー)

サイトを訪れた人の検索クエリとページ滞在時間を保存. (ユーザがどういう検索キーワードでそのサイトを探し,かつどのくらいそのサイトにとどまっていたか)

ページの滞在時間(page-staying time)に基づく評価方法を提案. (前提:ページ視聴時間が長いものは,ユーザの興味を引くページである.)

Page 13: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

Web サイトの分類・特徴づけ

「就職に関する話題」(2008年7月~12月)

実験データ:80000閲覧データ.ユニークサイトは 13000.

コンテンツの本文のみを抽出し,特徴にしたがってタグ付けし,ページを分類

複数のタグが付けられるサイトもある.

CAEPによって,各クラス(タグ)において評価の高い特徴を抽出.

Examples of Sites Characterization Rules

TagCharacterization Rules

(contain any words of followings)blog blog, comment, trackback, post

message boardthread, http://study.milkcafe.net/,http://www.milkcafe.net,http://school.milkcafe.net

blog add-up siteshttp://bugzero.thatsping.jp/,http://syuukatsu-blog.shooti.jp/

motion picture http://img.youtube.comimage jpg job interview interview, question entry sheet purpose, resume, self-promotion self-analysis self-analysismanner manner, letter of appreciation, hair style,paper test paper test, SPI, GAB, TOEIC

面接

就職関連サイト

エントリーシート

マナー・態度

・・・

13

Page 14: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

A Classifier based on CAEP(参考)

④To compute aggregated score for each instance

IGVcaep = LCM + Classification by Aggregating Emerging Patterns

①Input data with two classes

③To select emerging patterns satisfying minimum growth rate

②fast pattern mining by LCM

⑤To normalize the aggregated score

:

)(1)(

)()(

,

i

Es

ii

E

SPGR

GRsscore

ScoreAggregated

i

 

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

Supprt of Class 1

Support o

f Cla

ss 2 Emerging

patterns in Class 1

Emerging patterns in class 2

rategrowthimumSP

SPGR

classinpatternemerging

  

    

min)(

1

2

1

)(_

)()(_

iscorebase

sscoresscorenormalized i

i

       iclassofscoreofmedianiscorebase :)(_

⑥Estimate the class with higher normalized score

EPs in class I discovered from the training data

tid Class Score Normalized

Score

1 1 5.33 0.6979

1 2 20.23 0.9938 2 1 2.38 0.3112

2 2 32.16 1.5795 ・・・ ・・・ ・・・ ・・・

pattern Estimated class GrowthRate

A C 2 2.40

A B 2 2.40

F E 1 3.75

: : :

Example of output data

14

Page 15: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

実験結果(抜粋)

Class SupportGrowthRate

Probability Patterns

0.29 2.15 0.68 self-promotion

0.01 3.28 0.77 self-promotion, example, resume0.01 2.18 0.69 interview, question0.01 2.31 0.70 example, question0.04 4.02 0.80 interview, letter of appreciation0.02 2.62 0.72 letter of appreciation, how to write0.02 2.03 0.67 employment offer, how to write0.04 5.71 0.85 final interview

High

Low

「面接」に対する評価結果例

Evaluation rules for class “high”

Evaluation rules for class “low”

15

想定される用途

(閲覧者)ニーズにそった適切なサイトを推薦

(サイト運営者)ユーザ評価が高まるようなサイト構成を提案

自己アピールの方法

質問の例

雇用条件

エントリーシートの書き方

Page 16: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

まとめ

ページ滞在時間によるウェブサイトの評価

ページ作成者へのガイダンスとして利用できる.

ページ滞在時間は,WEBサイトの評価においても有用ではあるが,ノイズの影響が大きいなど,データ収集方法については,検討の余地もある.

ノイズはある程度アクセスログ等から推測し,排除できる可能性もある.

参考:A. Koike, Y. Shirai, Y. Koseki, Y. Nanamori, K.Nakagawa and Y.Hano, "Constructing Web Sites Evaluation Rules Based on Page-Staying Time", The 13th IEEE International Symposium on Consumer Electronics May 25-28, 2009, Mielparque-Kyoto, Kyoto, Japan

16

Page 17: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 17

Page 18: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 18

携帯電話による位置情報履歴の分析

Page 19: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

プロジェクトの概要 携帯電話による位置情報の履歴とその他の情報と組み合わせることで、個

人の嗜好や行動目的などを把握する.

プロジェクトの背景 マーケティングにおいて消費者ニーズを汲み取る方法として,オンラインアン

ケートがあるが,あくまで消費者の意識を数値化しただけで,実際の行動がどうなっているかを知ることはできない.

一方で,GPS機能を内蔵したモバイル機器の普及により,位置データを計測して収集する大規模実験も可能になってきている.

飯尾,吉田,小池,清水,白井,桑山,栗山,小浪,高山,“属性付き位置情報ログ

が示す行動特性と消費傾向の関係”,情報処理学会論文誌Vol. 52 No. 7 2256.2267 (July 2011)ほか参考

実施内容の概要

19

Page 20: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

データ収集方法

20

モニター募集条件

NTTドコモの携帯電話の保有

パケット定額サービス加入

以下の条件を満たすモニター

20代~50代

東京都心通勤・通学

通勤・通学時間60分以内

休日が土曜日及び日曜日

約1800名を選出

期間:2010年1月7日~1月31日 収集情報: 属性情報(アンケート) 行動ログデータ ①位置情報ログ (10分~30分おき) ②携帯電話開閉ログ

収集実験・収集情報

データ収集環境: ・専用アプリをインストール ・ iアプリDXにより位置情報ならびに開閉履歴を収集

Page 21: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

収集データの概要

21

<行動ログデータ> <属性情報>

職業 性別 年齢 趣味 家族構成 収入 など

時間 位置情報(緯度・経度)

時間 端末開閉ログ(開 or 閉)

時間 位置情報(緯度・経度) 時間 位置情報(緯度・経度) 時間 位置情報(緯度・経度) 時間 位置情報(緯度・経度)

時間 端末開閉ログ(開 or 閉) 時間 端末開閉ログ(開 or 閉) 時間 端末開閉ログ(開 or 閉) 時間 端末開閉ログ(開 or 閉) 時間 端末開閉ログ(開 or 閉)

時間 位置情報(緯度・経度)

Page 22: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

データ収集結果の概要

22

0

20

40

60

80

100

120

140

1 600 1200 1800 2400 3000 3600

人数

位置情報ログ数

0

50

100

150

200

250

300

350

400

1 600 1200 1800 2400 3000 3600

人数

開閉ログ数

有効モニターにおけるログ数の分布

一日あたり平均で160回以上開閉するユーザも!

Page 23: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

行動履歴データ(シーケンス)の作成

ID 職業 性別 年齢層 時間帯 行動履歴1 会社員 男性 30代 休日(昼) 駅(混雑), イベント会場(移動), イベント会場(滞留)1 会社員 男性 30代 休日(夜) 駅(混雑), ストリート(回遊), 繁華街(滞留)2 フリーター 男性 20代 休日(昼) 駅(混雑), デパート(滞留), ストリート(回遊)3 主婦 女性 30代 休日(昼) 公園(滞留), スーパー(滞留), 公園(移動): : : : : :

渋谷駅(混雑)

イベント会場(移動)

イベント会場(滞留)

ID 経度 緯度 時間1 139.754 35.452 13:001 139.842 35.483 13:101 139.920 35.502 13:201 139.752 35.852 13:301 139.820 35.911 13:401 139.720 35.702 13:50: : : :

POI情報や、行動の意味づけ、興味深い地点の抽出に基づき、重要と思われるレコードを抽出。

「男性・30代・会社員・休日(昼)」に頻出するパタン イベント会場(移動)→イベント会場(滞留)→繁華街(滞留)「女性・20代・会社員・休日(昼)」に頻出するパタン ストリート(回遊)→商業地域(滞留)

• 属性データ(静的データ)と意味付けされたシーケンスデータから、頻出する属性×シーケンシャルパタンを抽出する

• 属性の組み合わせ別に、頻出する行動パタンを抽出することが可能である

• 属性や過去の行動パタンから,今後の行動パタンを予測することが(ある程度は)できそう.

23

Page 24: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

実世界情報:まとめ(その1)

24

安いながらも謝金を出したので,データはそれなりに集まった.

結論は自明なようにも思えるが,実際の行動データから消費行動傾向の分布を客観的かつ定量的に示すことが重要.

日常の行動パタン分析は,ユーザの嗜好や状況を反映した新しいマーケティングへの期待がある.

ただし,ユーザにとってはモチベーションはほとんどない.これに対して,ダイエットなどの目的をもった行動パタン分析は,ユーザ寄りのアプリにつながりやすく,ダイエット目的の行動履歴収集は全く気にならずに提供できると回答した人が多かった.

Page 25: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

実世界情報:まとめ(その2)

25

プライバシー情報保護との関連は今後の課題.最近,いくつかのベンチャー企業のスマートフォン上でのアプリで,機微な情報を収集していたことが問題視された(ミログの「アップログ」など).

ユーザに真に利益のあることであれば,正々堂々とやっても問題はない.ただし,多くのユーザは,履歴により個人が特定可能になることを知らない.

プログラムを組み込んだアプリがスマートフォンに導入されると、端末の固有番号、他に導入済みのすべてのアプリの名前、各アプリを使った時間帯などのデータを1日1回、同社に送信する。アプリ開発者には端末1台あたり月1円が報酬として支払われる。 ミログはデータを解析して利用者の年齢層や性別、好きなアプリの傾向などを推定。KDDI子会社で携帯電話向け広告を手がける「メディーバ」(東京)がふさわしい広告を配信する仕組みだ。 http://matome.naver.jp/odai/2131778619234854901

Page 26: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 26

Page 27: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 27

健康生活支援システム

Page 28: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

実施内容の概要

28

平成21年度の経済産業省の研究開発プロジェクトの一環として実施.

プロジェクトの概要 食事履歴・運動履歴・体重計情報・体動計情報をもとに,効率的に健康意

識を改善するためのアドバイスを自動的に提示

健康意識の改善があったモニタの行動パタンを基に,意識改善のため最も効果的な行動変更のアドバイスを行う.その際,行動を変更することに対する個人の許容度(例えば,「お酒は絶対に止められない」等)を考慮.

ユーザの目的や状況を考慮した「やさしい」情報推薦

【参考】 小池, 白井, “個人の行動変更許容度と行動変更波及効果を考慮した健康生活支援推薦システム”, 人工知能学会全国大会, 2010年6月, 長崎

Page 29: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

実験期間:2009 年11 月2 日~2009 年12 月25日 対象:30 代~50 代のメタボリックシンドローム男性 150名 収集データ:生活履歴(食事履歴・運動履歴・日常生活履歴・体重計情報・体動計情報)

29

収集データの概要

Page 30: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

収集データ

30

体重計・体動計の情報は自動的に送信. その他の情報は,専用WEBアプリケーション上で入力して収集.

体動計情報

Page 31: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

アドバイスの提示

31

現在の行動パタンにできるだけ類似し,かつ行動改善負荷を考慮した上で,できるだけ効果が大きいパタンを推薦

ポジクラスのエマージングパタンとの差分による評価

推薦提示の差異は,同様の改善により効果があった(他の会員の)具体例を匿名化した上で提示.

Page 32: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

今日のアドバイスはあなたのこれまでの行動パターンをもとに、健康に対する意識を改善するための、中長期的視点に立ったアドバイスです。あなたの行動パターンと過去により健康になられた方々の行動パターンから分析すると、あなたはまず食事における摂取カロリーを下げることが効果的であると考えられます。

摂取カロリーを今より少しでも抑える習慣をつけるために、何を食べたかを振り返り、余分なものを再確認してみましょう。脂ものやお酒などの高カロリーのものをひかえる、ゆっくりと良くかんで食べる、器やグラスをひとまわり小さいものにしてみることも、カロリーを抑えるためのコツのひとつです。

摂取カロリーの改善を既に実行しており、効果が現れているモニタの方は多数いらっしゃいます。例えば、あなたの属性に近く、減量の効果のあがっているモニタとして、次のような方がいらっしゃいます。

○モニタAさん

運動行動ステージ:維持ステージ

食事行動ステージ:維持ステージ

年代:30代

家族構成:未婚家族同居

職業:内勤(オフィスワーク)

タバコ:喫煙

趣味:スポーツ 旅行 ショッピング グルメ 料理

なお、あなたの現在の運動行動ステージは、維持ステージ、食事行動ステージは、準備ステージです。

抽象的なアドバイスを補完する 具体的な事例の紹介 「あなたと同じような境遇の 方もがんばってます!」

自動的に生成されたアドバイスの具体例

32

Page 33: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

ユーザによる評価

33

Page 34: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

まとめ

34

参考:小池, 白井, “個人の行動変更許容度と行動変更波及効果を考慮した健康生活支援推薦システム", 人工知能学会全国大会, 2010年6月, 長崎 [PDF]

健康支援サービスでは,継続が重要(ユーザにとってコンテンツが魅力的であることが必要)

専門家の知識,ならびに個々の状況に十分に応じたアドバイス支援が必須.

個人の状況や効果を考慮したリコメンデーション(うまくいった例から,効果最大,かつ行動変更許容度を考慮したリコメンデーションを生成)

ユーザの反響は非常によかった.9割近くが継続したいと回答.

Page 35: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 35

Page 36: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 36

インターネット情報を用いた事業リスク分析

Page 37: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

分析の概要

37

上場企業(2205社)の2007年度の有価証券報告書から、「事業リスク」に関する業種別動向を分析。

業界として注目する事業リスクの全体像や業種別の差異を可視化。

各企業から見て,「今後何を考慮しなければならないか」を検討する材料.

クライアントがいたわけではないので,満足度は不明.

Page 38: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

リソースの選択

38

(情報開示日 2007年09月28日) 雪印種苗株式会社 ≪有価証券報告書≫ http://www.kabupro.jp/mark/20070928/0070H1RN.htm

Page 39: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

「特徴抽出方法を選ぶ」 (キーワードを選ぶ)

39

• トレンドを解析する上で,キーワード抽出は極めて重要な意味を持つ. • mecab や茶筅など,フリーで使えるツールが多数ある. • 反面,パターンマッチングによる抽出方法も有用. • このため、以下の2つの方法で専門用語抽出を行なう機能を実装した。

• 抽出されたキーワードについては、TF・IDF指標や頻度をもとに、ユーザが対象とするキーワード(ジャンル)を選択する。

形態素解析による名詞句抽出+Nグラム連結

パターンマッチングによる抽出

例) 瑕疵担保責任

瑕疵 担保 責任

名詞 名詞 名詞

連続する名詞をパラメータNで指定し、連結させる。 N=3 のケースでは、「瑕疵担保」「担保責任」「瑕疵担保責任」が生成される。

瑕疵担保責任を負わなければならない。

******** 責任を負わなければならない。

瑕疵担保責任 : リスク

Page 40: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

開発ソフトウェア 分析のイメージ

40

カテゴリ分けされたドキュメント集合

製造業 サービス業

2006年

2007年 SOX法

原油価格 SOX法

原油価格

高齢化

地球環境 コンプライアンス

高齢化

ジャンル分けされたキーワード (ex. 法規制、社会現象、対外環境…)

カテゴリ別に見たキーワードの関連

各ジャンル別に見たキーワードの関連

(1)キーワードの抽出

(2)関連性の計算

(3)可視化

Page 41: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

解析事例 使用したデータ

41

• 目的 企業が重視する事業リスク間の関連と業種別の相違を明らかにすること。

• リソース 全上場企業(2205社)の2007年度の有価証券報告書の「事業リスク」の項を収集。http://cg.kabupro.jp/よりダウンロード

• 26業種に分類された業種カテゴリ 業種カテゴリ 会社数 業種カテゴリ 会社数建設業 210 不動産業 24鉱業 7 ゴム製品 20化学 186 卸売業 101繊維製品 61 情報・通信 262ガラス・土石製品 69 鉄鋼 54陸運業 1 水産・農林業 10その他金融業 3 石油・石炭製品 14輸送用機器 12 医薬品 50その他製品 1 サービス業 275電気機器 133 非鉄金属 42精密機器 2 金属製品 97機械 244 小売業 148食料品 152 パルプ・紙 27

Page 42: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

解析事例 抽出キーワードの例

42

• n-gram(N=3)で抽出された「~リスク」に後方一致したキーワード。

• n-gram(N=3)で抽出された法律名。

• 2007年の時事ニュース等からキーワードをピックアップしたもの。(構造計算、姉歯等)

• 増加、減少等、傾向を表すキーワード。

キーワード抽出基準

キーワードを10ジャンルに分類

企業統治リスク 法令順守リスク 評判リスク プロセスリスク 財務リスク 情報リスク 外部環境リスク 傾向 法令 その他用語

経営戦略リスク コンプライアンス 風評被害 研究開発 有利子負債 ハッキング 原油高 増加 景品表示法 構造計算

労務管理 リーガルリスク 企業イメージ 品質不良 回収リスク 個人情報 為替変動 減少 ポジティブリスト 姉歯

海外進出 違反 レピュテーションリスク リコール デフォルトリスク ウィルス カントリーリスク 縮小 瑕疵担保責任 賞味期限

M&A 虚偽 信用リスク システム負荷 政情 高騰 外為法 BSE

不正 市場縮小 風営法 郵政民営化

不祥事 戦争 鳥インフルエンザ

テロ

キーワード例

Page 43: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

まとめ

43

業界別の分析は,各企業においてどのようなリスクを考慮しなければならないか検討する際に有益である.

既存知識の裏付けや網羅的な整理に利用できる.こうした点での活用事例は思いのほか多い.

テキスト処理については,既存のツールを含めて利用可能なものが多い(茶筅など).

Page 44: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 44

Page 45: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

その他の事例(データ):レセプトデータ

データベース名 項目(抜粋)

患者データ 性別,年齢

医薬品データ 日付,調剤年月,処方年月,医薬品名,投与量,投与回数,ほか

診療行為 診療年月日,診療区分

レセプト(診療報酬明細書)

JMDC(株式会社日本医療データセンター)では,2005年1月より複数の医療機関からデータ収集

名寄せ処理(複数の医療機関の情報をマージすることが可能)

医薬品データベースとして,薬品会社等に販売. レアな疾病については,隠ぺい(厳密な意味での匿名化は施されてはいない) 機微なデータであり,プライバシー保護の問題は重要.

厚生労働省でもナショナルデータベース構築を検討

http://www.mhlw.go.jp/seisakunitsuite/bunya/kenkou_iryou/iryouhoken/reseputo/ (議事録等)

二次利用にむけた議論(平成22年10月より)

45

Page 46: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

その他の事例(データ):レセプトデータ

46

【利用方法】 医薬品のマーケティングデータとして活用

(どのような薬がどのような状態で処方されているか) シグナル検出

(副作用発現が強く疑われるレセプトの系列とそうでないデータを分類) 【シグナル検出】 シグナル:ある有害事象とある医薬品に因果関係があるかもしれないとされ

た情報(それまでに因果関係があるかどうかは不明)

時系列データのクラス分類の問題だが,実際には,時系列データを特徴付けし,データ化.過去に行われた分析では,ロジスティック回帰(線形回帰)などによるスコアリング手法.

レアな関連ならばおそらく EP等を使ってみると面白い結果が出るのでは?

Page 47: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

その他の事例(データ):人の流れプロジェクト

47

http://www.tokyo-pt.jp/person/index.html

パーソントリップ調査(東京だと東京都市圏交通計画協議会事務局が実施.ほか各都市で実施)

平成10年東京都市圏人の流れデータ,平成18年道央都市圏人の流れデータ,平成17年北部九州都市圏人の流れデータ,平成13年中京都市圏人の流れデータ,平成12年京阪神都市圏人の流れデータ,...

データ補間を東京大学空間情報科学研究センター「人の流れプロジェクト」にて実施.データを公開.

どういう人がいつ何のためにどこからどこへ何を使って移動しているのか?

Page 48: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

その他の事例(データ):人の流れプロジェクト

主な共同研究 新型感染症伝播モデル 個人情報の匿名化とその2次利用について 排出・土地利用変化シナリオの開発 消費者吸引モデルの検討 時空間行動分析のための時空間データモデルの開発 災害リスクの予測 都市交通計画における統計情報の活用 位置情報と移動時間を考慮した移動軌跡からのパターン検出

48

可視化の例 http://pflow.csis.u-tokyo.ac.jp/visualization.html

Page 49: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 49

講義内容は以上です.

Page 50: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

レポート課題

50

UCI Data Repository (http://archive.ics.uci.edu/ml) 上のデータを使って,本講義で示す手法を参考に,大容量の実データを用いた新しいデータ解析プロジェクトを提案してください.実際に分析を行う必要はありませんが,データの属性や分布などはよく確認してください.また,実現性の可否は問いません.実用性の可否も問いません.その際,以下の点を明確にしてください. 利用するデータ(項目,データ数,期間,その他精度など) 何がわかるとうれしいか 分析の方法・手法は何か(どのような分析方法を用いてどの

ような分析を行うのか,例を具体的に示してください) どのようなことがわかると思うか うまくいかないとするとどのような原因があるか

Page 51: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 51

Report Assignment

Propose a new data analysis project using huge size of real data from UCI Data Repository (http://archive.ics.uci.edu/ml), referring the techniques and the examples in this lecture. You do not need to make actual analysis or care about possibility or practicality in real situations. You have to clarify the following points in the report : Data (items, number of records, attributes, etc) Objective/motivation of the analysis Methods Expected Results Causes if you could not find the results you expect

Page 52: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013

レポート課題(提出先)

提出期限:2013年11月末 提出先:ERATO湊離散構造処理系プロジェクト 白井 [email protected] (できればメール添付で) 講義資料: http://www-erato.ist.hokudai.ac.jp/lecture2013/ (uid : guest / passwd : eratoerato) 津田先生,鷲尾先生のレポート提出も「締め切り」,「提出先」は同じです.

52

Page 53: 大規模離散計算科学特論 - 北海道大学検討の余地もある. ノイズはある程度アクセスログ等から推測し,排除できる可能 性もある.

Nov 2013 53