27
最最最最最最最最最最最 ( 最 ) 最最最最 @takechan2000 最最最最最最 β 最 2 最最最最最最最 2013 最 7 最 27 最 最最最最最最

最近のデータ分析の潮流(仮)

Embed Size (px)

DESCRIPTION

ニコニコ学会β第2回データ研究会での発表です。

Citation preview

Page 1: 最近のデータ分析の潮流(仮)

最近のデータ分析の潮流 ( 仮 )

武田英明@takechan2000

ニコニコ学会 β 第 2 回データ研究会  2013 年 7 月 27 日 @ドワンゴ本社

Page 2: 最近のデータ分析の潮流(仮)

データに関する最近の話題• ソーシャルメディア・データ• ビッグ・データ• オープン・データ

Page 3: 最近のデータ分析の潮流(仮)

ソーシャルメディア・データ• 誰もが参加できるスケーラブルな情報発信技術

を用いて、社会的インタラクションを通じて広がっていくように設計されたメディア– 掲示板:2ちゃんねる– ブログ:アメーバブログ、はてな– Wiki : Wikipedia– SNS : Facebook, twitter, mixi,– 画像や動画の共有サイト: Youtube, ニコニコ動画– 投稿サイト: Kakaku.com, slash dot,

• データ:大量、個人性、社会性、オープン性http://ja.wikipedia.org/wiki/ ソーシャルメディア

Page 4: 最近のデータ分析の潮流(仮)

ビッグ・データ• “ 情報通信、とくにインターネットの発達にとも

なって爆発的に増大した構造化されていない莫大な量のデータ”

• “ 通常のデータベース管理ツールなどで取り扱う事が困難なほど巨大な大きさのデータの集まりのこと”

• “ 大量のデータを許容できる時間内に効率的に処理するための特別な技術を必要”– 超並列データベース、分散ファイルシステム、クラウ

ドコンピューティング、データマイニング、機械学習…

http://ja.wikipedia.org/wiki/ビッグデータ

Page 5: 最近のデータ分析の潮流(仮)

オープンデータとは• オープンデータとは、誰でも自由に使えて

再利用もでき、かつ再配布できるようなデータである。課すべき決まりは、たかだか「作者のクレジットを残す」あるいは「同じ条件で配布する」程度である。http://opendatahandbook.org/ja/what-is-open-data/

• “A piece of data or content is open if anyone is free to use, reuse, and redistribute it — subject only, at most, to the requirement to attribute and/or share-alike.”   http://opendefinition.org/

Page 6: 最近のデータ分析の潮流(仮)

オープンデータとは• 利用できる、そしてアクセスできる

– データ全体を丸ごと使えないといけないし、再作成に必要以上のコストがかかってはいけない。望ましいのは、インターネット経由でダウンロードできるようにすることだ。また、データは使いやすく変更可能な形式で存在しなければならない。

• 再利用と再配布ができる– データを提供するにあたって、再利用や再配布を許可しなければなら

ない。また、他のデータセットと組み合わせて使うことも許可しなければならない。

• 誰でも使える – 誰もが利用、再利用、再配布をできなければならない。データの使い

道、人種、所属団体などによる差別をしてはいけない。たとえば「非営利目的での利用に限る」などという制限をすると商用での利用を制限してしまうし「教育目的での利用に限る」などの制限も許されない。

http://opendatahandbook.org/ja/what-is-open-data/

Page 7: 最近のデータ分析の潮流(仮)

データは情報流通社会の資源

自由に利用 自由に再加工

自由に再配布

Page 8: 最近のデータ分析の潮流(仮)
Page 9: 最近のデータ分析の潮流(仮)
Page 10: 最近のデータ分析の潮流(仮)
Page 11: 最近のデータ分析の潮流(仮)
Page 12: 最近のデータ分析の潮流(仮)

例:センサや地域情報の統合

http://lsm.deri.ie/

様々な機関からの公開データを第 3 者が集めて表示

Page 13: 最近のデータ分析の潮流(仮)

ビッグ・データ オープンデータ

ソーシャルメディア・データ

データ

Page 14: 最近のデータ分析の潮流(仮)

ソーシャルメディア・データの利用

• ソーシャルメディア・データの特徴– 大量(とにかくでかいぜ)– 個人性(個人レベルの情報がわかる)– 社会性(個人間の関係・インタラクション、集

団性、社会全体の傾向)– 時間性・リアルタイム(タイムライン、今がわ

かる)– オープン性(他のデータとのつながり)

• 目的x手法

Page 15: 最近のデータ分析の潮流(仮)

ソーシャルメディア・データの利用の目的

• 社会分析・社会発見– 社会自身– ソーシャルメディアの”社会”

• ソーシャル・センサー by @tsakaki• 個人の活動の支援

Page 16: 最近のデータ分析の潮流(仮)

http://jp.techcrunch.com/2012/08/03/20120801twitter-launches-its-own-political-barometer-to-track-u-s-presidential-elections/

Twitter、利用者の感情分析に基づく大統領選挙予測ページを開設

朝日新聞、参議院選挙に関する twitter分析

Page 17: 最近のデータ分析の潮流(仮)

震源地予測結果

Tokyo

Osaka

実際の震源地

Kyoto

予測震源地(提案)

風船:呟きの位置色:呟き時刻

http://www.slideshare.net/tksakaki/twitter-5090597

Page 18: 最近のデータ分析の潮流(仮)

台風の進路予測実際の経路予測経路( Particle Filter)

http://www.slideshare.net/tksakaki/twitter-5090597

Page 19: 最近のデータ分析の潮流(仮)
Page 20: 最近のデータ分析の潮流(仮)

ソーシャルメディア・データの利用の目的

• 社会分析・社会発見– 社会自身– ソーシャルメディアの”社会”

• ソーシャル・センサー by @tsakaki• 個人の活動の支援

Page 21: 最近のデータ分析の潮流(仮)

ソーシャルメディア・データの利用の手段

• (データ処理一般)– 統計処理

• 回帰、主成分分析、クラスター分析– 機械学習

• (ネットワークデータとして)– 複雑ネットワークの分析

• スケールフリー性(べき法則)• スモールワールド性

– 社会ネットワーク分析• 中心性、クラスター係数…

– コミュニティ抽出• (時系列データとして)

– バースト解析– 予測

• (テキストデータとして)– 自然言語処理

Page 22: 最近のデータ分析の潮流(仮)

動画ネットワークノード数: 8669エッジ数: 10795

Page 23: 最近のデータ分析の潮流(仮)

作者ネットワーク• ネットワークの直径は21

• ノード数: 1362– 出次数1以上: 1156– 入次数1以上: 701

• エッジ数: 2270– 次数分布の累乗近似式

• 出次数: y = 988.32x^-2.395• 入次数: y = 93.487x^-1.214

• コンポーネント数: 60– 最大サイズ: 1227ノード

1 10 100 10001

10

100

1000

f(x) = 93.4873674502417 x -̂1.21430712781276

入次数

作者数

Page 24: 最近のデータ分析の潮流(仮)
Page 25: 最近のデータ分析の潮流(仮)
Page 26: 最近のデータ分析の潮流(仮)
Page 27: 最近のデータ分析の潮流(仮)

まとめ• ソーシャルメディア・データは熱い!• でも割と”社会”現象の分析や予測と個人支援とかに分化

• もっと“我々の世界”を開拓しよう