59
Copyright © NIFTY Corporation All Rights Reserved 2013. テキストマイニングと ソーシャルメディアアナリシス技術 20131018ニフティ株式会社 松井くにお 0

テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

テキストマイニングと ソーシャルメディアアナリシス技術

2013年10月18日

ニフティ株式会社

松井くにお

0

Page 2: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013. 1

• 職歴 – 1980:㈱富士通研究所入社

– 1980-1985:機械翻訳システムの研究開発

– 1986-1989:大規模電子化辞書の作成(EDR)

– 1989-1992:オンライン辞書システムの研究開発

– 1993-1994:次世代ワープロの企画(開発事業部)

– 1994-1998:超高速情報検索エンジンの研究開発

– 1999-2000:情報検索支援システムの研究開発(中国R&D兼務)

– 2001-2006:ナレッジマネジメントシステムの研究開発

– 2007-2009:Web 2.0 beyondプロジェクト(米国富士通研究所に勤務)

– 2009.7- :サービスビジネスの推進(ニフティ株式会社)

• 社外委員 – 言語資源協会副会長(2004年-2010年) – 情報処理学会理事(2006-2008年) – 静岡大学客員教授(2011年-) – 北陸先端科学技術大学院大学客員教授(2012年-) – JST特任フェロー(2012年-)

自己紹介

Page 3: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013. 2

• 田代光揮(ニフティ)

–ニフティ株式会社経営戦略室・パソコン通信データ分析担当/多摩大学情報社会学研究所客員研究員・慶應義塾大学SFC研究所訪問研究員

• 高橋哲朗(富士通研究所)

– NAIST情報科学研究科 自然言語処理学講座博士後期課程修了.富士通研究所所属.ニフティへの出向およびMITへの留学を経験.自然言語処理,情報抽出,テキストマイニングの研究に従事.

Teaching Helperの紹介

Page 4: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013. 3

• 10月18日

–分析とマイニング • 分析とは?

• なぜビックデータか

–ニフティフォーラムの紹介 • 今のコミュニティとの違い

• 今までの分析結果

• 復元処理、フォーマット

–分析実習 • 授業で使うデータフォーマット

• 分析方法と分析例

• 宿題(テーマ課題、自由課題)

今回の内容

Page 5: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析とは?

4

Page 6: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

ロンドンオリンピックのメダル

• ロンドンオリンピックの種目数

– 302種目

• メダルのカウント

– 金:302、銀:304、銅:356

• メダルの総数(団体競技も含めて) – オリンピック協会は約3,000個用意

• 各国の選手数

– 約10,500人

•オリンピックのメダル獲得は難しい

3.5人に1人はメダル獲得可能の計算

ああ、

なるほど!

5

Page 7: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

「ああ、なるほど!」までの道

• 見つけたいことを決める

–オリンピックでメダルを取るのはどんなに難しいのだろう?

• 必要な情報は分散している – 「イギリスのロンドンで開催されたロンドンオリンピックにおける各国・地域のメダル獲得数を表でまとめた。この大会の26競技・302種目に、約10,500人の選手が参加した。」

– 「ロンドンオリンピック (2012年) での国・地域別メダル受賞数一覧」

– 「ロンドン五輪では約3000個のメダルが用意されている。1つひとつが何年にもわたる厳しい練習の成果として渡されるものだが、そのうちのいくつかは渡されたそばから紛失の憂き目にあうかもしれない。」

• 分析手法を決める

–今回は足し算と割り算

6

Page 8: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析・マイニングの目的

• 構成要素を明らかにするため

–化学実験

• 未来を予測するため

–天気予報、経済予測

• 新たな気づきを得るため

–ナレッジマネジメント、見える化

7

Page 9: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析・マイニングとは

• 分析

– 複雑な事柄を一つ一つの要素や成分に分け、その構成などを明らかにすること(大辞泉)

– 証明するべき命題から、それを成立させる条件へ次々に遡っていくやり方(Wikipedia)

• データマイニング

– 統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術(Wikipedia) • パターン(相関)発見

• 分類

• クラスタリング

8

Page 10: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

なぜビッグデータか?

9

Page 11: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

2011年のハイプサイクル(ガートナー資料から)

Page 12: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

2012年のハイプサイクル

Page 13: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013. 12

2013年のハイプサイクル

Page 14: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析・マイニングの必要性

• 自給自足社会

• 工業化社会

• 情報化社会

利用者 提供者 重要なこと

立地*

情報* •(マーケティングの必要性)

関係性* •(ソーシャルメディアの影響)

*:上原征彦教授の講演から

13

Page 15: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

ビッグデータ分析・マイニングの必要性

• 関係性社会 – 利用者は同じような属性を持った小集団を形成

• コンテキスト社会 – 小集団が時間や場所などの状況に応じて多様に変化

利用者 提供者 重要なこと

Tribe(小集団)

が動的に変化

リアルタイム・

ビッグデータ

の分析 時間・場所

センサー twitter

14

Page 16: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

競合他社より優位に立つビッグデータ活用企業

食品雑貨

eコマース

大規模小売

カジノ

クレジットカード

保険

出典:McKinsey&Company (Fujitsu North America Technology Forumより)

~過去10年間の売上、利益の年平均伸長率の比較~

•単位:%

15

Page 17: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

ビッグデータの活用事例の分析

• ビッグデータを活用するポイント

–継続性:何回も使うか

–高精度化:ビッグデータだから精度が上がるか

–必要性:そもそもビッグデータが必要か

企業 事例 データ種類 データ規模 継続性 高精度化 必要性成城石井 値引き決定 POS 3万アイテム ○ △ △クックパッド 注目食材の分析 検索キーワードログ 3.5億件 × △ ×VISA 不正利用発見 トランザクション 1.3億/日 × × ○楽天 商品のレコメンデーション コマース購入履歴 ○ ○ ○Cyber Agent 退会兆候の行動分析 コミュニティの行動履歴 1000万人 △ ○ ○がんこフードサービス 業務低下の行動分析 センサ、POS、クレーム ○ △ ×Vestas社 風力タービンの最適位置導出 気象、GPS、衛星写真 2.8PB相当 × ○ △カカクドットコム証券 株価予測配信 twitter情報 2億/月 ○ △ △ウェザーニュース ゲリラ雷雨の予測 GPS,カメラ情報 30万人、1万/日 ○ △ ○

AIT航空機整備サービス整備業務効率化 航空機整備情報 6,300万/日 △ △ △富士通WisReed 電力需給の安定化・最適化 スマートメーター情報 960億/日 ○ △ △富士通  糖尿病予備軍の予測 レセプト、健康診断、バイタル × ○ △

16

Page 18: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

人 行動 商品 時間 場所

デモグラ的 リアル 意味的 週間単位 地理的

サイコグラ的 バーチャル メーカー別 生活場 月間単位

飲料

食料

月 火 水 木 金 土 日0-33-66-99-1212-1515-1818-2121-24

自宅

会社

キリン

アサヒ

性別

住所 所得

職業 年齢

車好き

ネット好き サッカー好き

野球好き 占い好き

返却゙

購入

評価

訪問 閲覧 GPS

方向 距離

固有名 住所

1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月第一週第二週第三週第四週第五週

酒類 ビール

購入

評価

訪問 閲覧

返却゙

特徴素の組み合わせと「ビッグデータ」

•* ネットスーパーサイト

利用者は朝中心にネットサーフフィンしている

•* ネットスーパー利用

者はECやオークションサイトとの親和性が高い可

能性がある

分析結果 気づき

分類の組み合わせでログとマッチング

整理・可視化

マイニング

どの条件の組み合わせが一番特徴的か

これらの項目がtribeを決める

17

Page 19: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

ニフティフォーラムの紹介

18

Page 20: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013. 19

Nifty-Serveフォーラムデータ

• NIFTYに保存されていたパソコン通信データ

–保存日時 :1987年~2006年3月31日

–データ量 :約184GB

–会議室数 :11万

(富士通データセンター)

Page 21: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

フォーラムデータの価値1

・当時の日本のネットコミュニティの大半 ・サービス開始から終了まで完結しているデータ つまり 「当時の世論が反映」した 「結果が分かっているデータ」 =機械学習の対象となるデータ!

20

Page 22: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

フォーラムデータの価値2

・著者のIDが固定されているデータ インターネット → IPアドレス&自主申告 パソコン通信 → 本人と紐づけられたID 当時はクレジットカード名義人名および郵送にて本人確認していた。(郵送不着でID削除)

つまり 「長期間のユーザの振る舞い」を確認できるデータ

21

Page 23: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

フォーラムデータの価値3

・返信先が記録されているデータ →記事単位でどの記事への返信かが記録されている

つまり ユーザー間の「社会的距離」がわかるデータ (返信数の多さ=社会的距離の近さ)

22

Page 24: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

フォーラムデータの価値4

・話題別に整理されているデータ →フォーラム単位で話題が別れている。間違った投稿はシスオペ(議論のファシリテータ)が移動。

つまり ユーザが何を話題にしているかをテキスト単位で推定することができるデータ 例:鈴鹿 優勝 ホンダ →F1フォーラム など

23

Page 25: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

例えば・・・ ①ネットコミュニティの活性・衰退の閾値 ②ユーザの振る舞いの予測と結果 ③ネットコミュニティのソーシャルグラフ ④スレッドのリレーションシップの明示 Etc.

24

フォーラムデータから何がわかるの?

Page 26: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

今までの分析結果

25

Page 27: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

現在の共同研究先

関西学院大学 三浦研 心理学

関西大学 森尾研 心理学

慶應義塾大学 国領研 統計学

早稲田大学 山名研 情報工学

統計数理研 丸山研 情報工学

東京大学 鳥海研 情報工学

京都大学 吉田研 社会学 new!

26

Page 28: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

コミュニティ形成・成熟・消滅過程

0

1000

2000

3000

4000

5000

6000

7000

8000

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

投稿数

談話室

質問・議論

境界領域

応用・社会心理学

神経・生理心理学

臨床心理学

草創期 最盛期 終末期

三浦研

Page 29: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

名乗りの種類

21

19

19

29

31

17

11

20

17

11

12

17

0

0

0

0

0

0

0% 20% 40% 60% 80% 100%

プシケー

ハイパーどすこい心理学

こころの病とその癒し

こころは社会の窓

からだとこころ

文明と心理学

本名 ハンドル ID

28

• いずれの会議室でも、IDをそのまま名乗る利用者はいなかった

• 専門性の高い「からだとこころ」「こころは社会の窓」では、

本名を名乗っている割合が高かった

※ここで言う「本名」は、姓名によって構成され、日本人の氏名として不自然でないもの。 本人が社会生活において用いている氏名と同一であることは保証できない。

国領研

Page 30: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

著者推定

0.30

0.40

0.50

0.60

0.70

0.80

0.90

著者推定精度

著者推定手法 MRR

PRECISON@1

29

安形らと同等精度

最高精度

15%の精度向上

候補者7,260人からの著者推定

最良併用:複数の手法を併用した時の理論最大性能

山名研

Page 31: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

なぜ著者推定にニフティフォーラムは有用か

多くの著者によって文章が投稿されている

各文章に著者IDとなる情報がある

著者IDが実際の著者と1対1で対応する

投稿される文章が多様な話題を含んでいる

30

大規模候補者群に対する著者推定手法評価に必要な

データセットの特徴

ニフティフォーラムの掲示板のデータセットは

下記の特徴をすべて満たす

大規模候補者群に対する著者推定研究が可能となる

山名研

Page 32: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

丸山研

31

フォーラムごとのソーシャルグラフ

Page 33: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

復元処理、フォーマット

32

Page 34: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

第1期 2011年8月~9月 40フォーラム 第2期 2012年4月~8月 644フォーラム

作業する加藤さん

33

PC通信形式からCSV形式への変換

Page 35: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

バックアップデータの中身

種類 ファイル数

テキストファイル 467,736

プログラムファイル 119,891

画像ファイル 177,788

音声ファイル 50,528

動画ファイル 1,293

その他のデータファイル 93,937

合計 911,173

34

Page 36: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

フォルダ数 ファイル数 容量

0 21 184.0GB

119,240 383,454,901 183.0GB

conf 509 9,856 5.0GBdlib 411 19,430 28.9GB合計 920 29,286 34.0GB

CSV化後

CPIO

解凍後

34G分のCSV・テキストデータが完成

バックアップデータ加工その2 CSV化

テキストファイルをCSV化

35

日本経済新聞(180MB/年)

約188年分に相当

Page 37: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

解読不可の例

変換不可

改行エラー

文字化け

36

Page 38: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

発言番号

返信先

ユーザーID

発言日時

タイトル

ハンドルネーム 本文(文字コード修正済み)

変換後のCSVの中身

会議室ごとに1つのCSVファイル

文字コードエラーに対応するために日本語プログラム 「なでしこ」を利用してCSV化。

37

Page 39: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

復元後のデータの日別の発言数

38

注:90年以前はデータ形式エラーで検出できていませんが、88年からのデータが存在しています。

オーム事件

Page 40: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

0

100,000

200,000

300,000

400,000

500,000

600,000

700,000

800,000

1987年度(94)

1988年度(139)

1989年度(155)

1990年度(196)

1991年度(236)

1992年度(273)

1993年度(324)

1994年度(411)

1995年度(540)

1996年度(645)

1997年度(708)

1998年度(757)

1999年度(765)

2000年度(743)

2001年度(724)

2002年度(324)

2003年度(228)

2004年度(163)

2005年度(94)

TTYフォーラム有償時間(千分)

0

100,000

200,000

300,000

400,000

500,000

600,000

TTY+WEBフォーラム利用者数(人)

TTYフォーラムアクセス有償時間(千分)

フォーラム利用者(TTY+WEB)

(参考)フォーラム利用人数

39

Page 41: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

さらに阪神淡路大震災の安否情報も存在 阪神・淡路大震災安否情報 ¥330 ¥board11 ¥board#01:454件(生活安全情報) ¥board#02:162件(安否情報) ¥board#03:500件(生活安全情報) ¥board#04:257件(安否情報) ¥board#05:113件(安否情報) ¥board#06: 0件(削除済み) ¥board84 ¥board#07:524件(安否情報) ¥board#19:516件(安否情報) ¥board161 ¥board#01:533件(安否情報) ¥board#02:276件(安否情報) ¥board#03:479件(生活安全情報) ¥board#04:130件(※富士通グループ内部情報:非公開) ¥board#05:231件(生活安全情報) ¥board#06:229件(生活安全情報) -------------------------------------------------------- 発言数合計:4,274件(※富士通グループ内部情報を除く)

40

Page 42: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

授業で使うデータフォーマット

41

Page 43: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

データフォーマット

<data id='frm0088-conf12-ほのぼの温泉 -'>

<text id="frm0088-conf12-00501">

<header>

00501,00487,CXX00320,ラーメンと温泉,9507181852

</header>

<body>

ラーメン¥t名詞-未知語¥t@KATAKANA¥tO

新潟温泉¥t名詞-固有名詞,名詞-地名¥tニイガタ,オンセン¥tLOCATION

(^O^)/¥t間投詞,感動詞¥t@EMOJI¥tO

と¥t助詞-格助詞¥tト¥tO

さん¥t接尾語-人称名詞接尾語¥tサン¥tO

</body>

</text>

<text id="frm0088-conf12-00502">

<header>

00502,, QZP00774,新潟でラーメン, 9507182212

</header>

<body>

:

:

:

</data>

・textタグの間が一つの投稿

・headerには投稿者の情報とタイトル 第一項目:投稿のid

第二項目:他の投稿idへの参照

第三項目:ユーザID

第四項目:タイトル

第五項目:投稿日時(yymmddhhss)

・bodyの間に投稿に含まれる単語情報(次項に説明)

掲示板のタイトル

42

Page 44: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

単語のフォーマット

新潟温泉¥t名詞-固有名詞,名詞-地名¥tニイガタ,オンセン¥tLOCATION

・「¥t」はタブ

・最初の項目が単語の文字列

・2項目目が品詞。複数の単語が一つの固有名詞となる場合はカンマ(,)区切りで指定

・3項目は読み。読みがない場合は、@EMOJI, @KATAKANA, @NUMBER, @URLなどのタイプとなる。

・4項目目は、固有表現タイプ。LOCATION(場所)、ORGANIZATION(組織)、ARTIFACT(サービス名、製品名など)、DATE(日付), TIME(時間), MONEY(金額), PECENT(割合)。Oは固有表現以外。

43

Page 45: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

匿名化処理の概要

<data id='frm0088-conf12-ほのぼの温泉 -'>

<text id="frm0088-conf12-00501">

<header>

00501,00487,CXX00320,ラーメンと温泉,9507181852

</header>

<body>

新潟温泉で佐藤一郎さんとラーメン(^O^)/

</body>

</text>

<text id="frm0088-conf12-00502">

<header>

00501,00487,CXX00320,新潟でラーメン泉,9507181852

</header>

<body>

新潟で鈴木さんとラーメン。

</body>

</text>

:

:

:

</data>

<data id='frm0088-conf12-ほのぼの温泉 -'>

<text id="frm0088-conf12-00501">

<header>

00501,00487,CXX00320,ラーメンと温泉,9507181852

</header>

<body>

ラーメン¥t名詞-未知語¥t@KATAKANA¥tO

新潟温泉¥t名詞-固有名詞,名詞-地名¥tニイガタ,オンセン¥tLOCATION

(^O^)/¥t間投詞,感動詞¥t@EMOJI¥tO

と¥t助詞-格助詞¥tト¥tO

さん¥t接尾語-人称名詞接尾語¥tサン¥tO

</body>

</text>

<text id="frm0088-conf12-00502">

<header>

00501,00487,CXX00320,新潟でラーメン泉,9507181852

</header>

<body>

:

:

:

</data>

・単語に区切って、 固有名詞を抽出

・人名を削除

・単語をシャッフル

44

Page 46: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析方法と分析例

45

Page 47: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析のタイプ

• 仮説検証

–仮説の作成

–仮説の検証

• 集計・可視化

• 特異性の有無

• 相関

• 発見

–データ(テキスト)マイニング

データ 仮説

OR

検証

46

Page 48: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

仮説検証

• 仮説の作成

–分析対象の選択

• フォーラム

• コミュニケーション(発言,リプライ,...)

• テキスト(特定の単語,顔文字,...)

–データから導かれる仮説を立案

[例]

• 顔文字はジワジワ使われるようになった?

• 恋愛系は相談が多い?

• 顔文字の利用頻度が高いほどフォーラムは長続する?

47

Page 49: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

仮説検証

• それぞれの仮説の検証方法

– 顔文字はジワジワ使われるようになった?

• 顔文字の利用頻度の時系列変化を見る.

• 時系列 x 顔文字の利用率を集計し可視化.

– 恋愛系は相談が多い?

• フォーラム発言の中での返信の割合により相談の多さを定義

• 恋愛系のフォーラムと恋愛系以外のフォーラムをそれぞれ複数選択し,返信の割合に違いがあるかを検証.

• t検定を用いて平均の差の検定を行なう.

– 顔文字の利用頻度が高いほどフォーラムは長続きする?

• 複数のフォーラムを選択.

• それぞれのフォーラムにおいて,「顔文字の利用率」と「フォーラムの継続期間」のそれぞれの値を集計.

• 2つの値の間の相関を調べる.

48

Page 50: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析プロセス

1. データの入手・選択

– 仮説に応じて利用するデータを選択する.

2. データクリーニング

– 今回のデータでは必要ない.

3. 必要なデータの抽出

– Rでも処理できるが,スクリプト言語などで処理した方が簡単.

4. 集計・分析処理

– 一般的に行なう集計・分析処理は Rで可能.

5. 可視化

– Rで可能だが MS-Excelなども良い.

49

Page 51: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析例1

• 顔文字はジワジワ使われるようになった?

– 顔文字の利用頻度の時系列変化を見る.

– 時系列 x 顔文字の利用率を集計し可視化.

50

Page 52: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

Rを用いた集計・分析処理

• Rの起動

• データの読み込み

• データのサマリー

• ヒストグラム

datafile

51

Page 53: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

• 特異性の有無

– カイ二乗検定による

分割表の検定

Rを用いた集計・分析処理

100日未満

100日以上

sum

恋愛系 6 14 20

非恋愛系 17 13 30

sum 23 27 50

フォーラムの種類

フォーラムの継続日数

恋愛系のフォーラムの方が長く続く?

p-valueが 0.05以上の場合,差があるとは言えない. 52

Page 54: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

• 特異性の有無

– t検定による平均の差の検定

• 右の2つのデータ(列)に差があるか?

Rを用いた集計・分析処理

p-valueが 0.05以上の場合,差があるとは言えない.

sampledata

53

Page 55: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析例2

• 恋愛系は相談が多い?

– フォーラム発言の中での返信の割合により相談の多さを定義

– 恋愛系のフォーラムと恋愛系以外のフォーラムをそれぞれ複数選択し,返信の割合に違いがあるかを検証.

• 検証ステップ

– 返信の割合の平均値は恋愛系が多いかを確認

– t検定を用いて平均の差の検定を行なう.

– p-valueが 0.05よりも大きければ差は無い,

つまり恋愛系は相談が多いとは言えないと言える

– p-valueが 0.05よりも小さければ差がある,

つまり恋愛系

54

Page 56: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

• 相関

Rを用いた集計・分析処理

p-valueが 0.05以上の場合,相関があるとは言えない.

←相関係数 (-1 〜 1)

sampledata

55

Page 57: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013.

分析例3

• 顔文字の利用頻度が高いほどフォーラムは長続きする?

– 複数のフォーラムを選択.

– それぞれのフォーラムにおいて,「顔文字の利用率」と「フォーラムの継続期間」のそれぞれの値を集計.

– 2つの値の間の相関を調べる.

56

Page 58: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013. 57

• テーマ課題

–サンプルプログラムを用いてこれまでに説明した以下の3つの分析事例を再現する. • 顔文字はジワジワ使われるようになった?

• 恋愛系は相談が多い?

• 顔文字の利用頻度が高いほどフォーラムは長続きする?

• 自由課題(6チームに分けます) –各チームそれぞれが,仮説作成,データの選択,仮説検証までの一連の分析を行なう.

– この結果を通して Web以前のネット社会の特徴およびそこから示唆される今後のネット社会のあり方をまとめ発表する.

宿題

Page 59: テキストマイニングと ソーシャルメディアアナリシス技術 - NAIST · 2013-10-29 · 楽天 商品のレコメンデーション コマース購入履歴 Cyber

Copyright © NIFTY Corporation All Rights Reserved 2013. 58

• 10月25日

–自由課題の発表

• 発表5分 コメント5分 ×6チーム

–総括1(発表に関して)

–総括2(トピック)

次回の予定