4
インタラクティブ GHSOM C4.5 による 旅行者の主観的観光情報のフィルタリングルールの抽出 Twitter を用いた情報の共有 Extraction of Filtering Rules of Tourist Subjective Information by Interactive GHSOM and C4.5 and Its Sharing System with Twitter 1 2 1 Shin Kamada, 2 Takumi Ichimura 1 大学大学院 1 Graduate School of Comprehensive Scientific Research, Prefectural University of Hiroshima 2 大学 2 Faculty of Management and Information Systems, Prefectural University of Hiroshima Abstract: We have developed Hiroshima Tourist information Android application called “Hiroshima Kankou Map” as smartphone based participatory sensing system. More than 500 subjective data are analyzed by interactive GHSOM and C4.5, and then knowledge related to Hiroshima sightseeing spots are extracted. In this paper, the Android application was improved to send the subjective data with Twitter to construct a mobile social community of Hiroshima tourist. The filtering rules to be tweeted can select the effective tourist information. Moreover, the developed system can retrieve the places where Hiroshima Quest introduces. In this paper, the subjective data from Hiroshima Kankou Map and the tourist information from Hiroshima Quest are analyzed to find a new filtering rule. 1 はじめに によりデータ 易に ったこ あり, 多く している.こ よう 題に対する してソフトコンピューティングによる があり, マップ (Growing Hierarchical SOM: GHSOM)[1] アルゴ リズム して られている.GHSOM SOM[2] れたアルゴ リズム あり, った した SOM から される.学 ニット うこ データに するように,マップサイズが する.しかし, パラメタ によって され ぎ ,かえっ データ えづらく がある.こ 題に対して, する 案されて いる [3].こ され ぎた マッ プを し, ってし まった する から を変 するこ きる. づい きるインタラクティブ GHSOM 案している [4]また,スマートフォンによるユーザ センシン グシステム (MPPS) して, する Android アプ リ ( マップ) した [5].こ アプ リ GPS による位 5 140 テキスト された するこ きる.これま された 500 をイ ンタラクティブ GHSOM により し ,そ C4.5[6] により ってきた. されたコメント について うために, Web サイト ブ ログ より する し,TF-IDF [7] により められたコメント をデータに えた.また, C4.5 により獲 された にフィルタリングルー ルを し, ある えられる Twitter されるシステムを した. マップ により された しているため, いこ されている.こ ため, する多 システム「ひろしまクエスト」 [8] るこ ,多く きるようにした.

インタラクティブ GHSOMとC4.5によるharp.lib.hiroshima-u.ac.jp/pu-hiroshima/file/10472/20131219163306/IchimuraT031.pdfを抽出し,TF-IDF 法[7] により求められたコメント

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

インタラクティブGHSOMとC4.5による旅行者の主観的観光情報のフィルタリングルールの抽出

とTwitterを用いた情報の共有

Extraction of Filtering Rules of Tourist Subjective Informationby Interactive GHSOM and C4.5 and Its Sharing System with Twitter

© 1鎌田  真, 2市村  匠© 1Shin Kamada, 2Takumi Ichimura

1県立広島大学大学院 総合学術研究科 経営情報学専攻1Graduate School of Comprehensive Scientific Research, Prefectural University of Hiroshima

2県立広島大学 経営情報学部 経営情報学科2Faculty of Management and Information Systems, Prefectural University of Hiroshima

Abstract: We have developed Hiroshima Tourist information Android application called “HiroshimaKankou Map” as smartphone based participatory sensing system. More than 500 subjective data areanalyzed by interactive GHSOM and C4.5, and then knowledge related to Hiroshima sightseeing spotsare extracted. In this paper, the Android application was improved to send the subjective data withTwitter to construct a mobile social community of Hiroshima tourist. The filtering rules to be tweetedcan select the effective tourist information. Moreover, the developed system can retrieve the places whereHiroshima Quest introduces. In this paper, the subjective data from Hiroshima Kankou Map and thetourist information from Hiroshima Quest are analyzed to find a new filtering rule.

1 はじめに

情報技術の進歩によりデータ収集が容易になったこ

ともあり,現実世界には膨大で多くの不確実性要素が存

在している.このような現実世界の問題に対する解法と

してソフトコンピューティングによる手法があり,階層

成長型自己組織化マップ (Growing Hierarchical SOM:GHSOM)[1]は,教師なし競合学習アルゴリズムとして知られている.GHSOMは SOM[2]に木構造の概念を取り入れたアルゴリズムであり,階層構造を持った複

数の独立した SOMから構成される.学習の過程でユニット挿入と階層化を行うことで,入力データに適応

するように,マップサイズが動的に成長する.しかし,

パラメタの設定によっては深く階層化され過ぎ,かえっ

て入力データの特徴が捉えづらくなる場合がある.こ

の問題に対して,階層化を抑制する手法が提案されて

いる [3].この方法は,階層化され過ぎた場合でもマップを再構築し,複雑になってしまった構造を修正する

もので,計算結果から部分的に階層構造を変更するこ

とができる.本研究では,我々は人間の評価に基づい

た計算結果を取得できるインタラクティブ GHSOMを提案している [4].

また,スマートフォンによるユーザ参加型センシン

グシステム (MPPS)として,広島県の観光情報を収集する Androidアプリ (広島県観光マップ)を開発した[5].このアプリでは,GPSによる位置情報,5段階評価値,140文字以内のテキスト文,写真で構成された旅行者の主観的情報を収集することができる.これま

での我々の研究では,収集された約 500件の情報をインタラクティブ GHSOMにより分類し,その分類結果をもとに C4.5[6]により知識獲得を行ってきた.投稿されたコメント文については,情報不足を補うために,

観光Webサイトやブログなどより観光に関する単語を抽出し,TF-IDF 法 [7]により求められたコメント中の単語の出現頻度と特性値をデータに加えた.また,

C4.5により獲得された知識を元にフィルタリングルールを作成し,旅行者に有効であると考えられる情報の

み Twitterに投稿されるシステムを開発した.

広島県観光マップは,旅行者により投稿された情報

に限定しているため,情報量が少ないことが問題点と

されている.このため,広島県観光課が開発する多言

語観光ナビシステム「ひろしまクエスト」[8]と連動することで,多くの観光情報を提供できるようにした.

本論文では,「広島県観光マップ」[9]で収集された約500件のデータに,「ひろしまクエスト」で提供されている特定の観光情報を加えたデータセットに対して分

析を行い,今までに情報量が少なくて作成されていな

かった新しいフィルタリングルールを抽出した.

2 広島県観光マップ図 1(a)は,開発した広島県観光マップの初期画面で,

実際に訪れた観光地において,図 1(b)のように,GPSによる位置情報,5段階評価値,140文字以内のコメント文,写真を収集すると同時に,サーバにデータを

投稿することができる.投稿された情報を PCで閲覧するために,図 2のようなホームページを作成した.スマートフォンで登録した IDとパスワードをホームページで入力すると,自分専用の観光サイトが表示さ

れ,「思い出マップ」として,訪れた観光地の記録が表

示される.

(a) 初期画面 (b) 新規投稿画面

図 1: 広島県観光マップ

3 ひろしまクエストにより抽出したデータのインタラクティブGHSOMとC4.5による知識獲得

広島県観光マップでは,旅行者参加型システムであ

るため,参加者が少ないと多くの情報が集まらないこ

とが問題点とされていた.特に,有名でない地域につ

いては,その情報量が多いとは言えない.そこで,広

島県観光課が旅行者に観光情報を提供するために開発

した多言語観光ナビシステム広島クエスト [8]から,特定の地域に対する情報を閲覧できるようにした.これ

により,広島県観光マップの GPS機能により測定した現在値に近い観光地を広島クエストから検索するこ

とが可能となった.具体的には,図 5(a),図 5(b),の

図 2: GoogleMap表示

ように,「広島県観光マップ」で指定した観光地周辺の

「ひろしまクエスト」のデータを検索し,閲覧すること

ができる.

本論文では,「ひろしまクエスト」で提供されている

観光情報の一部を抽出し,これを「広島県観光マップ」

の分析データに加え,インタラクティブ GHSOMにより分類する.ここで,「ひろしまクエスト」の観光情報

には評価値は設定されていない.「ひろしまクエスト」

の各サンプルの評価値を,その周辺に投稿されている

「広島県観光マップ」のサンプルの評価値の平均値とし

て与える.

広島県観光マップにより収集された観光情報 500件と,特定の地域に関する広島クエストからの観光情報

を一つのデータセットとした.このデータセットに対

して,インタラクティブ GHSOMによる分類を行った.最初に行った分類では,図 3(a)のように,一部のマップに多くのユニットが挿入され,多くの階層構造が生

じてしまったが,特定の部分を再学習することにより,

図 3(b)のように,人間が見て理解しやすい構造が得られた.

図 4(a)は,再学習前の構造に対し C4.5により得られた決定木の一部であり,図 4(b)は再学習後の構造に対する決定木である.取得された知識を分かりやすく

するために,決定木の葉ノードにはアルファベットを

割り当てている.学習により,葉ノードの数を少なく

することができ,ルールを簡略化できた.ここで知識

として得られた IF-THENルールを元に,Twitterのフィルタリングルールを作成した.

「ひろしまクエスト」のデータを加えて分類するこ

とで,次のような 2つの特徴が表れた.1つは,サンプル数が少ない広島市郊外のクラスタである.「広島県観

光マップ」のみの分類結果では,サンプル数が少ない

ため広島市郊外のクラスタが形成されず,サンプル数

が多い近郊 (広島市中心部など)のクラスタと一緒に分類される傾向があった.「ひろしまクエスト」のデータ

を加えることで,これらが近郊のクラスタと一緒に分

類されることなく,その地域だけでクラスタを形成す

ることができた.「ひろしまクエスト」のデータは,「広

島県観光マップ」では投稿数が少ない地域もカバーし

ていると言える.もう 1つの特徴は,宮島など,サンプル数が多い観光名所周辺のクラスタである.「広島県

(a) 学習前

(b) 学習後

図 3: インタラクティブ GHSOMの分類結果

観光マップ」のみのデータで分類した場合は,位置情

報や評価値が近似するサンプルが,コメント文から得

られた TF-IDF値の大小により 2つのクラスタで分類された.つまり,1つの観光名所に含まれるサンプルが,重要な単語が含まれているかどうかによって分類

された.再分類の結果,「ひろしまクエスト」のデータ

は,そのほとんどが TF-IDF値が高いクラスタに分類された.「ひろしまクエスト」のコメント文には,観光

名所や有名な土産物に関する単語など,観光地として

A1A2

H1 H2

B

G1

G2

I1

I2I3

J

G3C

D

K

F

E2

E1

evaluation > 2 :| evaluation <= 3 :| | tfidf <= 1.07179 :| | | lon <= 132.394 :| | | | tfidf <= 0.419397 :| | | | | lat <= 34.3128 : [R][00][01][20] (9.0)| | | | | lat > 34.3128 : [R][00][01][21] (12.0/1.0)| | | | tfidf > 0.419397 :| | | | | lat <= 34.4323 : [R][00][11] (21.0)| | | | | lat > 34.4323 : [R][00][01][01] (2.0)| | | lon > 132.394 :| | | | lon <= 132.527 :| | | | | tfidf <= 0.650069 :| | | | | | tfidf > 0.488828 : [R][00][12][00] (6.0)| | | | | | tfidf <= 0.488828 :| | | | | | | tfidf <= 0.244758 : [R][00][01][11] (5.0)| | | | | | | tfidf > 0.244758 :| | | | | | | | lat <= 34.4914 : [R][00][01][00] (8.0)| | | | | | | | lat > 34.4914 : [R][00][02] (2.0)| | | | | tfidf > 0.650069 :| | | | | | tfidf > 0.913805 : [R][00][12][02] (7.0)| | | | | | tfidf <= 0.913805 :| | | | | | | lat <= 34.33 : [R][00][12][11] (2.0)| | | | | | | lat > 34.33 : [R][00][12][01] (13.0)| | | | lon > 132.527 :| | | | | lon <= 132.63 :| | | | | | tfidf > 0.632878 : [R][00][12][12] (10.0/1.0)| | | | | | tfidf <= 0.632878 :| | | | | | | tfidf <= 0.419397 : [R][00][01][10] (3.0)| | | | | | | tfidf > 0.419397 : [R][00][12][00] (2.0/1.0)| | | | | lon > 132.63 :| | | | | | lon > 132.937 : [R][01][10] (11.0)| | | | | | lon <= 132.937 :| | | | | | | lon <= 132.759 : [R][00][02] (2.0)| | | | | | | lon > 132.759 : [R][01][11] (4.0/1.0)

(a) 学習前

evaluation > 2 :| evaluation <= 3 :| | tfidf <= 0.573081 :| | | lon <= 132.399 :| | | | tfidf <= 0.419397 : [R][00][22] (21.0)| | | | tfidf > 0.419397 : [R][00][14] (3.0/1.0)�| | | lon > 132.399 :| | | | lat <= 34.3044 : [R][00][13] (4.0)| | | | lat > 34.3044 :| | | | | lon > 132.85 : [R][01][10] (4.0)| | | | | lon <= 132.85 :| | | | | | lat > 34.474 : [R][00][24] (3.0)| | | | | | lat <= 34.474 :| | | | | | | tfidf <= 0.188286 : [R][00][22] (3.0)| | | | | | | tfidf > 0.188286 : [R][00][23] (17.0)��| | tfidf > 0.573081 :| | | tfidf <= 1.07179 :| | | | lon <= 132.328 :| | | | | lat <= 34.1684 : [R][00][12] (2.0)| | | | | lat > 34.1684 : [R][00][02] (17.0)| | | | lon > 132.328 :| | | | | lon <= 132.527 : [R][00][03] (24.0)| | | | | lon > 132.527 :| | | | | | lon <= 132.714 : [R][00][04] (10.0/1.0)�| | | | | | lon > 132.714 :| | | | | | | lat <= 34.4146 : [R][01][10] (7.0)| | | | | | | lat > 34.4146 : [R][01][11] (4.0/1.0)

A’B

C

D

F

I’

J

DK

G’

H1H2

E’

(b) 学習後

図 4: C4.5による決定木

重要な単語が比較的多く含まれているからだと考えら

れる.

(a) 広島県観光マップ (クエスト表示)

(b) 広島クエストのデータ表示

図 5: 広島県観光マップの画面

4 おわりにこれまでの我々の研究では,「広島県観光マップ」に

より収集されたデータからインタラクティブ GHSOMと C4.5を用いて知識獲得を行ってきた.本論文では,「ひろしまクエスト」で提供されているデータの一部を

分析データに加え,再分類した.「ひろしまクエスト」

のデータは評価値は設定されていないが,「広島県観光

マップ」と比較して多くの観光情報が提供され,また

有名な観光名所が多く含まれることが分かった.一方,

「広島県観光マップ」のデータは,観光地として知名度

が高いものばかりではないが,新規性の多い観光地も

含まれている.「広島県観光マップ Ver1.0」では,「ひろしまクエスト」と連動する機能を実装したので,これ

らの性格の異なるデータ同士の欠点が補完されるので

はないかと考える.

参考文献[1] A.Rauber, D.Merkl, M.Dittenbach, “The growing hi-

erarchical self-organizing map: exploratory analy-sis of high-dimensional data”, IEEE Transactions onNeural Networks, vol.13, pp.1331-1341, 2002.

[2] T.Kohonen, “Self-Organizing Maps”, Springer Seriesin Information Sciences, Vol. 30, Springer, Berlin,Heidelberg, New York, 1995.

[3] T.Ichimura and T.Yamaguchi, “A Proposal of Inter-active Growing Hierarchical SOM”, 2011 IEEE In-ternational Conference on Systems, Man, and Cy-bernetics, pp.3149-3154, 2011.

[4] 市村匠, “ソフトコンピューティングのための Androidスマートフォン・インタフェース”, 知能と情報, Vol.23,No.4, pp.256-254, 2011.

[5] 鎌田真, 市村匠, “Android スマートフォンにより収集した観光情報の自己組織化マップによる分類”, 第 26回ファジィシステムシンポジウム講演論文集, pp.215-218,2011.

[6] J.R.Quinlan, Improved use of continuous attributesin c4.5, Journal of Artificial Intelligence Research,No.4, pp.77-90, 1996.

[7] H.C.Wu, R.W.P.Luk, K.F.Wong, K.L.Kwok, “Inter-preting TF-IDF term weights as making relevancedecisions”, ACM Transactions on Information Sys-tems, Vol.26, No.3, pp.137, 2008.

[8] 広島県観光課,“多言語観光ナビシステム「ひろしまクエスト」”,http://www.hiroshima-quest.jp/ja/(2012/06/09)

[9] ITProducts,“広島県観光マップ”,https://market.android.com/details?id=jp.itproducts.KankouMap(2012/06/09).

連絡先〒 734-8558広島市南区宇品東一丁目 1-71県立広島大学 経営情報学部市村  匠E-mail: [email protected]