27
ブブブブブブブブブブブブブブブブブ ブブブブブブブ ブブブブブブブブ ブブブ ブブブブブ ブブブブブ ブブブブ 、、、

ブログマイニングによる観光情報分析

Embed Size (px)

DESCRIPTION

ブログマイニングによる観光情報分析. 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文. はじめに. ブログ:日々更新される日記的サイト ブログ開設数 868 万人、インターネット利用者全体の 11% 現在、北海道では観光産業が基幹産業として非常に重要視されている 「北海道」というキーワードを含むブログはブログ検索サイトで検索すると 150 万以上存在する 本研究では、ブログマイニングツールの開発を行い、ブログと観光との関連についての研究の基礎的な検討を行った. 内容. ブログマイニング FC2 ブログ 開発ツール「 blogHITer 」 - PowerPoint PPT Presentation

Citation preview

Page 1: ブログマイニングによる観光情報分析

ブログマイニングによる観光情報分析

北海道工業大学 情報デザイン学科岩佐渉、三田村保、湯川恵子、大堀隆文

Page 2: ブログマイニングによる観光情報分析

はじめに ブログ:日々更新される日記的サイト ブログ開設数

868 万人、インターネット利用者全体の 11%

現在、北海道では観光産業が基幹産業として非常に重要視されている

「北海道」というキーワードを含むブログはブログ検索サイトで検索すると 150 万以上存在する

本研究では、ブログマイニングツールの開発を行い、ブログと観光との関連についての研究の基礎的な検討を行った

Page 3: ブログマイニングによる観光情報分析

内容 ブログマイニング FC2 ブログ 開発ツール「 blogHITer 」

システム構成形態素解析ツール「 chasen 」分析結果

「旅行」カテゴリユーザの分析

Page 4: ブログマイニングによる観光情報分析

ブログマイニング ブログマイニング

web マイニング技術利用によりブログを解析し、社会情勢やコミュニティの存在など有益な情報を取り出すこと

web マイニングデータベース技術、情報検索技術、自然言語処理技術との関連性も深く、データマイニング技術と連携している。 web コンテンツマイニング :web ページを構成するテキス

ト情報 web 構造マイニング :web ページ間を結ぶリンク構造情報 web 利用マイニング :web ページへのアクセスログ

本研究は、 web コンテンツマイニングであり、ブログの内容を対象としている。

Page 5: ブログマイニングによる観光情報分析

主なブログ

Autopage FC2ブログ goo ブログ JUGEM

livedoor ブログ Seesaa ブログ So-net blog Yahoo!ブログ

アメーバブログ ウェブリブログ エキサイトブログ ココログ

ドリコムブログ はてなダイアリー ヤプログ! 楽天ブログ

主なブログとして 16 種類挙げる。

Page 6: ブログマイニングによる観光情報分析

FC2 ブログ 様々なカテゴリ

のブログを作ることが可能

全てにおいて優良で、幅広い目的にあったサービスを展開。

登録者数は 80万人以上。

Page 7: ブログマイニングによる観光情報分析

blogHITer の構成

ブログ収集

ブログ解析バースト検索傾向分析行動分析

Page 8: ブログマイニングによる観光情報分析

ブログ収集 Getfc2.java

newentry.rdf を解析fc2.txt に必要なデータを保存

Entry.java

fc2.txt からデータを読込むブログにアクセスし、内容を保存

Page 9: ブログマイニングによる観光情報分析

ブログ解析

バースト検索検索された言葉に関して、ブログ著者間の使用頻度を検索し表示する機能

傾向分析指定されたユーザ ID や月に関して、それぞれの言葉の使用頻度を検索し表示する機能

行動分析ブログ記入時間がいつだったかを表示する機能

Page 10: ブログマイニングによる観光情報分析

Chasen について 自然言語処理のうち、形態素解析( Morphological

Analysis )に用いられるツール。 奈良先端科学技術大学院大学の自然言語処理学講座

で開発がなされ、フリーで配布されている。

Page 11: ブログマイニングによる観光情報分析

収集ブログデータ

収集対象: FC2 ブログ収集範囲: 2005/7/1 ~ 2006/6/31収集 ID 数: 338 件総記事数: 32,841 個最小記事数: 1 個最大記事数: 364 個平均記事数: 97.1 個

Page 12: ブログマイニングによる観光情報分析

バースト検索結果 ( 検索語 = 「冬休み」 )

冬休み期間である 12 月、 1 月が回数が多い。 7 月、 8 月は回数が少ない。

Page 13: ブログマイニングによる観光情報分析

検索語「知床」と「世界遺産」の結果

Page 14: ブログマイニングによる観光情報分析

傾向分析結果 ( ユーザ ID= 「 156 」 ) 「写真」という言葉が

多く、趣味が写真であると考えられる。

「 156 」は昼にブログを書いていることがわかる。

実際に「 156 」のブログを確認したところ、写真関係の記事が多い。

Page 15: ブログマイニングによる観光情報分析

行動分析結果(全ユーザ)

ブログ記入時間の 1 時間毎の総計を分析することが出来る。 個々の行動分析をまとめて見ることが出来る。

Page 16: ブログマイニングによる観光情報分析

行動分析の総計のグラフ

22 時から 1 時までの夜間にブログを投稿している人が多い (25%) 昼時である 12 時が多い (8%) 朝方の 5 時、 6 時は投稿している人はほとんどいない (1.3%)

Page 17: ブログマイニングによる観光情報分析

ブログと観光との比較分析一般ユーザと旅行カテゴリユーザの比較

行動分析バースト検索

Page 18: ブログマイニングによる観光情報分析

FC2 ブログカテゴリ一覧 地域情報 旅行 海外情報 スポーツ ファイナンス 学校・教育 福祉・ボランティ

ア 学問・文化・芸術 お笑い ギャンブル 謎 独身・フリー 心と身体 サブカル その他 アダルト計 47 個

日記 ニュース ブログ モブログ 音楽 映画 政治・経済 オンラインゲーム ゲーム アニメ・コミック 本・雑誌 小説・文学 車・バイク テレビ・ラジオ アイドル・芸能 就職・お仕事 恋愛

ファッション・ブランド

結婚・家庭生活 育児 ペット 趣味・実用 ライフ 株式・投資・マネー アフィリエイト グルメ ヘルス・ダイエット ビジネス コンピュータ 携帯電話・ PHS 写真

Page 19: ブログマイニングによる観光情報分析

収集ブログデータ (旅行カテゴリ )

収集対象: FC2 ブログ・旅行カテゴリ収集範囲: 2006/1/1 ~ 2006/12/31収集 ID 数: 111 件総記事数: 8699 個最小記事数: 1 個最大記事数: 363 個平均記事数: 78.0 個

Page 20: ブログマイニングによる観光情報分析

旅行カテゴリと一般の行動分析比較

一般は夜間に更新することが多いのに対し、旅行カテゴリは 18 時 - が多い。

Page 21: ブログマイニングによる観光情報分析

旅行カテゴリの傾向分析 ( ユーザ ID= 「 chikatetsu 」 )

地下鉄関係の人であると推測できる。

夕方から夜にかけて更新することが多い。

実際に、確認したところ駅員であった。

Page 22: ブログマイニングによる観光情報分析

検索語「観光」での検索結果

338 人中 92 人 (27.2% ) から検出した。

検出回数( 回 )

記事数( 件 )

割合(%)

2005年 7月 65 1178 5.5

2005年 8月 88 1328 6.6

2005年 9月 70 1496 4.7

2005年 10月 95 1828 5.2

2005年 11月 128 2066 6.2

2005年 12月 158 2461 6.4

2006年 1月 154 2859 5.4

2006年 2月 184 2979 6.2

2006年 3月 293 3580 8.2

2006年 4月 271 3803 7.1

2006年 5月 177 4310 4.1

2006年 6月 255 4953 5.1

Page 23: ブログマイニングによる観光情報分析

検索語「旅行」での検索結果

338 人中 192 人 (56.8% ) から検出した。

検出回数( 回 )

記事数( 件 )

割合(%)

2005年 7月 340 1178 28.9

2005年 8月 520 1328 39.2

2005年 9月 401 1496 26.8

2005年 10月 655 1828 35.8

2005年 11月 703 2066 34.0

2005年 12月 922 2461 37.5

2006年 1月 1010 2859 35.3

2006年 2月 1004 2979 33.7

2006年 3月 1824 3580 50.9

2006年 4月 1836 3803 48.3

2006年 5月 1620 4310 37.6

2006年 6月 1819 4953 36.7

Page 24: ブログマイニングによる観光情報分析

「観光」の検出人数

7 、 8 月が多い。 徐々に下がっていくグラフ。

  検出人数( 人 )

総人数( 人 )

割合 (% )

2005年 7月 11 79 13.9

2005年 8月 15 90 16.7

2005年 9月 16 108 14.8

2005年 10月 12 129 9.3

2005年 11月 20 148 13.5

2005年 12月 15 168 8.9

2006年 1月 13 193 6.7

2006年 2月 19 214 8.9

2006年 3月 25 243 10.3

2006年 4月 22 269 8.2

2006年 5月 24 290 8.3

2006年 6月 27 338 8.0

Page 25: ブログマイニングによる観光情報分析

「旅行」の検出人数

検出人数( 人 )

総人数( 人 )

割合 (% )

2005年 7月 26 79 32.9

2005年 8月 30 90 33.3

2005年 9月 27 108 25.0

2005年 10月 36 129 27.9

2005年 11月 42 148 28.4

2005年 12月 45 168 26.8

2006年 1月 50 193 25.9

2006年 2月 63 214 29.4

2006年 3月 79 243 32.5

2006年 4月 80 269 29.7

2006年 5月 77 290 26.6

2006年 6月 91 338 26.9

7 、 8 月や 3 、 4 月に検出される人数が多い。 ほぼ一定なグラフ。

Page 26: ブログマイニングによる観光情報分析

終わりに ブログ分析ツール blogHITer の開発

ブログの記事が投稿された時間を表示する行動分析 そのユーザーがどのような単語を多く使っているか

という傾向分析 今後の展開

記事内容、トラックバック、コメント、アフィリエイトの分析

他のブログ (livedoor ブログ等 ) のマイニング ブログ検索エンジン ( テクノラティ等 ) の活用

観光とブログ分析の比較 一般ユーザと旅行カテゴリユーザとの比較 観光データとの比較

Page 27: ブログマイニングによる観光情報分析

ブログマイニングによる観光情報分析

北海道工業大学 情報デザイン学科岩佐渉、三田村保、湯川恵子、大堀隆文