WSDM 2016勉強会 Geographic Segmentation via latent factor model

WSDM2016勉強会Geographic segmentation via latent poisson factor model

リクルートテクノロジーズ坪坂正志

2016/3/17

背景

• GPS機能を備えた携帯端末の普及により位置情報の数が増えている

• データはプライバシーの観点から個人レベルではなく、地域レベルでの集計になることも多い• 地域AではアプリXが10回, アプリYが30回開かれた, 地域BではアプリXが8回, アプリYが10回開かれたなどの情報

•本論文ではGeographic segmentationという観測を異なる地理的な領域にわけ、その観測の潜在構造を同定するタスクを扱う

課題

• セグメントでの観測と地理的な近さの関係が薄い• Yelpアプリが開かられるのはレストランの近くで地理的な位置は関係ない

•観測数が地域によって異なる• サンフランシスコ市内とサニーベールではアプリが開かれる個数は異なる

•観測数は異なるユーザのものが混じっている• 集計値を利用しているため、異なるユーザのログがまじっているためデータにノイズが入る

これらの問題を解決するためLabeled Poisson model (LPM)を提案

利用するデータについて

• App Usage Data• Yahoo AvitateというAndroid用のランチャーソフトのアプリのログ

• Yahoo News Data• Yahoo Homepageのニュースのクリックログ

データの定式化

•観測データ {𝑋𝑖𝑗} , アイテムiが地域jで何回開かれたか

• ラベルデータ : 𝑌𝑧, 𝑌𝑠 , 各アイテムi, 地域jについているカテゴリ• 例えばアプリログであれば

• アイテムのカテゴリはNews, Restaurantsなど

• 地域のカテゴリはNightlife spot, Restaurantなど

Labeled poisson factor model

• アイテムごとに事前トピック確率の計算を行う• 𝛼𝑖 = 𝑆𝐻𝑅𝐼𝑁𝐾 𝛼, 𝑌𝑧𝑖• 𝜃𝑖~𝐷𝑖𝑟(𝛼𝑖)

•位置ごとに事前トピック確率の計算を行う• 𝛽𝑗 = 𝑆𝐻𝑅𝐼𝑁𝐾 𝛽, 𝑌𝑠𝑗• 𝜋𝑗~𝐷𝑖𝑟(𝛽𝑗)

•各観測ごとに• 𝑍𝑖𝑗~𝑀𝑢𝑙𝑡𝑖 𝜃𝑖 , 𝑆𝑖𝑗~𝑀𝑢𝑙𝑡𝑖(𝛽𝑗)

• 𝑋𝑖𝑗~𝑃𝑜𝑖𝑠𝑠𝑜𝑛 Λ𝑍𝑖𝑗,𝑆𝑖𝑗

ここでSHRINKはラベルがついてるものだけを1,そうでないものを0にする処理Labeled LDA(Ramge+, ACL 2009)と同じ処理

Λ𝑖𝑗~𝐺𝑎𝑚𝑚𝑎(𝑎, 𝑏)

この部分については既存ではベクトルの内積で表現することが多いが本論文では個別に計算する

実験設定

• ラベルづけについて• アプリ

• アイテム : “Productivity”, “News”など24のラベルが存在

• ロケーション : FourSquareで引っ張ってくる, “Restaurant”, “College or University”など10のラベルが存在

• ニュース• アイテム : 記事のカテゴリを利用、21のラベルが存在

• ロケーション : 郵便番号情報から収入、年齢、世帯数、人口をそれぞれ10段階に離散かしたものを利用、40のラベルが存在

RMSEによる評価(アプリログ)

• アプリを利用頻度の高い100個に限定、地域もサンフランシスコBay areaを100に分割

• 100*100の行列のうち20%を除外して、訓練したモデルで欠損値を予測する

セグメントの例

•茶色がschool, 黄色がshopping area, オレンジがhotelを示している

学習されたパラメータ(Λ𝑖𝑗)

ニュース記事の場合

まとめ

•地域ごとに集計されたデータをカテゴライズするためのLPFというモデルを提案した

• モデルは従来の座標情報ではなく、その地域に何があるかにもとづており、ニュース記事やモバイルアプリの分析にとってはより有用な情報を得ることができた

Technology

WSDM 2016勉強会 Geographic Segmentation via latent factor model