Upload
hideaki-takeda
View
1.174
Download
2
Embed Size (px)
DESCRIPTION
ニコニコ学会β第2回データ研究会での発表です。
Citation preview
最近のデータ分析の潮流 ( 仮 )
武田英明@takechan2000
ニコニコ学会 β 第 2 回データ研究会 2013 年 7 月 27 日 @ドワンゴ本社
データに関する最近の話題• ソーシャルメディア・データ• ビッグ・データ• オープン・データ
ソーシャルメディア・データ• 誰もが参加できるスケーラブルな情報発信技術
を用いて、社会的インタラクションを通じて広がっていくように設計されたメディア– 掲示板:2ちゃんねる– ブログ:アメーバブログ、はてな– Wiki : Wikipedia– SNS : Facebook, twitter, mixi,– 画像や動画の共有サイト: Youtube, ニコニコ動画– 投稿サイト: Kakaku.com, slash dot,
• データ:大量、個人性、社会性、オープン性http://ja.wikipedia.org/wiki/ ソーシャルメディア
ビッグ・データ• “ 情報通信、とくにインターネットの発達にとも
なって爆発的に増大した構造化されていない莫大な量のデータ”
• “ 通常のデータベース管理ツールなどで取り扱う事が困難なほど巨大な大きさのデータの集まりのこと”
• “ 大量のデータを許容できる時間内に効率的に処理するための特別な技術を必要”– 超並列データベース、分散ファイルシステム、クラウ
ドコンピューティング、データマイニング、機械学習…
http://ja.wikipedia.org/wiki/ビッグデータ
オープンデータとは• オープンデータとは、誰でも自由に使えて
再利用もでき、かつ再配布できるようなデータである。課すべき決まりは、たかだか「作者のクレジットを残す」あるいは「同じ条件で配布する」程度である。http://opendatahandbook.org/ja/what-is-open-data/
• “A piece of data or content is open if anyone is free to use, reuse, and redistribute it — subject only, at most, to the requirement to attribute and/or share-alike.” http://opendefinition.org/
オープンデータとは• 利用できる、そしてアクセスできる
– データ全体を丸ごと使えないといけないし、再作成に必要以上のコストがかかってはいけない。望ましいのは、インターネット経由でダウンロードできるようにすることだ。また、データは使いやすく変更可能な形式で存在しなければならない。
• 再利用と再配布ができる– データを提供するにあたって、再利用や再配布を許可しなければなら
ない。また、他のデータセットと組み合わせて使うことも許可しなければならない。
• 誰でも使える – 誰もが利用、再利用、再配布をできなければならない。データの使い
道、人種、所属団体などによる差別をしてはいけない。たとえば「非営利目的での利用に限る」などという制限をすると商用での利用を制限してしまうし「教育目的での利用に限る」などの制限も許されない。
http://opendatahandbook.org/ja/what-is-open-data/
データは情報流通社会の資源
自由に利用 自由に再加工
自由に再配布
例:センサや地域情報の統合
http://lsm.deri.ie/
様々な機関からの公開データを第 3 者が集めて表示
ビッグ・データ オープンデータ
ソーシャルメディア・データ
データ
ソーシャルメディア・データの利用
• ソーシャルメディア・データの特徴– 大量(とにかくでかいぜ)– 個人性(個人レベルの情報がわかる)– 社会性(個人間の関係・インタラクション、集
団性、社会全体の傾向)– 時間性・リアルタイム(タイムライン、今がわ
かる)– オープン性(他のデータとのつながり)
• 目的x手法
ソーシャルメディア・データの利用の目的
• 社会分析・社会発見– 社会自身– ソーシャルメディアの”社会”
• ソーシャル・センサー by @tsakaki• 個人の活動の支援
http://jp.techcrunch.com/2012/08/03/20120801twitter-launches-its-own-political-barometer-to-track-u-s-presidential-elections/
Twitter、利用者の感情分析に基づく大統領選挙予測ページを開設
朝日新聞、参議院選挙に関する twitter分析
震源地予測結果
Tokyo
Osaka
実際の震源地
Kyoto
予測震源地(提案)
風船:呟きの位置色:呟き時刻
http://www.slideshare.net/tksakaki/twitter-5090597
台風の進路予測実際の経路予測経路( Particle Filter)
http://www.slideshare.net/tksakaki/twitter-5090597
ソーシャルメディア・データの利用の目的
• 社会分析・社会発見– 社会自身– ソーシャルメディアの”社会”
• ソーシャル・センサー by @tsakaki• 個人の活動の支援
ソーシャルメディア・データの利用の手段
• (データ処理一般)– 統計処理
• 回帰、主成分分析、クラスター分析– 機械学習
• (ネットワークデータとして)– 複雑ネットワークの分析
• スケールフリー性(べき法則)• スモールワールド性
– 社会ネットワーク分析• 中心性、クラスター係数…
– コミュニティ抽出• (時系列データとして)
– バースト解析– 予測
• (テキストデータとして)– 自然言語処理
動画ネットワークノード数: 8669エッジ数: 10795
作者ネットワーク• ネットワークの直径は21
• ノード数: 1362– 出次数1以上: 1156– 入次数1以上: 701
• エッジ数: 2270– 次数分布の累乗近似式
• 出次数: y = 988.32x^-2.395• 入次数: y = 93.487x^-1.214
• コンポーネント数: 60– 最大サイズ: 1227ノード
1 10 100 10001
10
100
1000
f(x) = 93.4873674502417 x -̂1.21430712781276
入次数
作者数
まとめ• ソーシャルメディア・データは熱い!• でも割と”社会”現象の分析や予測と個人支援とかに分化
• もっと“我々の世界”を開拓しよう