Upload
horihorio
View
2.034
Download
0
Embed Size (px)
Citation preview
分析のビジネス展開を考える―状態空間モデルを例に
TokyoWebMining #47
2015/6/27
@horihorio
自己紹介
Twitter ID @horihorio
お仕事 データ分析コンサルタント
興味 多趣味。その痕跡 → 私の読書リスト 統計/DB/R/マーケティング/金融/会計
過去の発表 ここ
最近の出来事
分析の仕事に関わるあらゆるお仕事をやっています ただし、実際の分析を除く…
自宅でもEC2でXBRLの前処理、…って何してるの?
相変わらず、3歳児な子どもに大絶賛嫌われ中…
2015/6/27 分析のビジネス展開を考えるー状態空間モデルを例に 1 / 47
目次
1. はじめに
2. 状態空間モデルの推定方法
3. 分析のビジネス展開を考える ―状態空間モデルを例に
4. まとめ
※ 本発表の内容と意見は発表者個人に属するものであり、発表者が所属する企業の公式見解を示すものではございません
2015/6/27 2 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
1. はじめに
2015/6/27 3 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
データ分析で相手を動かすには
2015/6/27 4 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
分析者が好かれること
問題設定に腹落ちして頂くこと
分析結果の見せ方、展開方法を固めること
この分析成果は、自分の手柄になりそう
などなど…
ですが、相手は「自分が出来ない/やってない分析結果に責任を取らされる」ので、
に応えることは、結構重要
なぜそうなるの?
社内の意思決定者を考える
2015/6/27 5 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
関係者全員が統計に興味があり、詳しい → まずあり得ない
納得を頂くには、中身が見えた方が良い
入力 出力 ブラックボックス
一部の機械学習手法
通りやすいモデル
入力 出力
𝑥1 𝑦 𝑥2
𝑥3
状態空間モデルって
2015/6/27 6 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
中身が見える、分かりやすいモデルの一例
オンラインモールの購買単価 (𝑦𝑡) = 𝑤𝑡+55 × 𝑆𝐸𝑂 100万 + 48 × リスティング 100万 +13 × アプリ𝐷𝐿数 1000 + 20 × 休日数
※数字や変数はフィクションです(参考先) 購買単価(𝑦𝑡)
𝑇 モデル構築期間 予測期間
予測範囲
世間受けをGoogleに聞いてみた
2015/6/27 7 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
ビジネス
※画面は6/22現在
※判断基準は主観
ビジネス
初学者向け理論
オレ系
ビジネスマンの 勉強成果
ビジネスマンの 勉強成果
対照サンプルの結果(例:確率微分方程式)
2015/6/27 8 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
アマゾン
※画面は6/22現在
※判断基準は主観
ビジネス
初学者向け理論 大学講義資料
アマゾン
大学講義資料
データ分析の仕事で思うこと
2015/6/27 9 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
1. データ分析は信用されない、がスタート地点
データください(結構大変)、結果は保証出来ません → 予算ください、の上申の優先順位は下がりがち
依頼者は分析者より情報劣位な「レモン市場」 → そのままでは「悪貨が良貨を駆逐する」に陥る
2. そんな中、成功例が出るのは嬉しいこと
「データサイエンスブーム」で話がしやすいのは確か
3. ただ、形式的な真似はそこそこ容易に
数式は書籍や論文での公開情報、R/Python等はフリー、計算資源もAWSなりで簡単に調達、あとは人材だけ
本発表の目的
2015/6/27 10 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
状態空間モデルを例に
ためにすべきことを考えます
言いかえると
のせめぎあいが生む困り事、と言えるかも
理論を正しくビジネスに適用する
融通が利かない、モデルの仮定・前提条件
vs ビジネスで実現したい想いと熱意
2. 状態空間モデルの推定方法
参考文献にもある、以下文献の抜粋引用
• 樋口『予測にいかす統計モデリングの基本』
• 佐藤、樋口『ビッグデータ時代のマーケティング』
※この章のみ、文末表現が違うが、気にしない…
2015/6/27 11 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
状態空間モデルとは
2015/6/27 12 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
線型ガウス型とすると、次の式で表現される
システムモデル
𝑥𝑡 = 𝐹𝑡𝑥𝑡−1 + 𝐺𝑡𝑣𝑡 , 𝑣𝑡 ∼ MV𝑁(0, 𝑄𝑡)
観測モデル
𝑦𝑡 = 𝐻𝑡𝑥𝑡 + 𝑤𝑡 , 𝑤𝑡 ∼ MV𝑁(0, 𝑅𝑡)
• 𝑦𝑡:観測される時系列データ
• 𝑥𝑡:状態ベクトル
同時確率を分解する
2015/6/27 13 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
ベイズの定理 P A, B = P A B P(B) を用いると
p 𝑥1:𝑇 , 𝑦1:𝑇
= p 𝑦𝑇|𝑦1:𝑇−1, 𝑥1:𝑇 p 𝑦1:𝑇−1, 𝑥1:𝑇
= p 𝑦𝑇|𝑦1:𝑇−1, 𝑥1:𝑇 p 𝑥𝑇|𝑦1:𝑇−1, 𝑥1:𝑇−1 p 𝑦1:𝑇−1, 𝑥1:𝑇−1
= ⋯
= p 𝑦𝑇|𝑦1:𝑡−1, 𝑥1:𝑡
𝑇
𝑡=1
p 𝑥𝑇|𝑦1:𝑡−1, 𝑥1:𝑡−1
システムモデル 観測モデル
システム、観測ベクトルが 与えられたときの確率
Notation: 𝑥1:𝑇 = {𝑥1, 𝑥2, ⋯ , 𝑥𝑇}
2つのマルコフ性
2015/6/27 14 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
同時確率の分解は、マルコフ性を仮定し、計算可能な形へ変形したといえる
仮定1:𝑥𝑡の分布は、𝑥𝑡−1のみで定まる
p 𝑥𝑡|𝑦1:𝑡−1, 𝑥1:𝑡−1 ⟹ p 𝑥𝑡|𝑥𝑡−1
仮定2: 𝑦𝑡の分布は、𝑥𝑡のみで定まる
p 𝑦𝑡|𝑦1:𝑡−1, 𝑥1:𝑡 ⟹ p 𝑦𝑡|𝑥𝑡
状態空間モデルでの興味
2015/6/27 15 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
次の3つの分布の推定と言える
• 予測分布: p 𝑥𝑡|𝑦1:𝑡−1
• フィルタ分布:p 𝑥𝑡|𝑦1:𝑡
• 平滑化分布: p 𝑥𝑡|𝑦1:𝑇
グラフィカルモデル(GM)表現
2015/6/27 16 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
状態空間モデルは、2つのマルコフ性を踏まえると、鎖状グラフィカルモデルで書ける
𝑥1
𝑦1
𝑥2
𝑦2
𝑥0 𝑥𝑡−1
𝑦𝑡−1
𝑥𝑡
𝑦𝑡
𝑥𝑇
𝑦𝑇
GM表現上での3つの分布の違い
2015/6/27 17 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
• 予測分布: p 𝑥𝑡|𝑦1:𝑡−1 • フィルタ分布:p 𝑥𝑡|𝑦1:𝑡
• 平滑化分布: p 𝑥𝑡|𝑦1:𝑇
𝑥1
𝑦1
𝑥2
𝑦2
𝑥0 𝑥𝑡−1
𝑦𝑡−1
𝑥𝑡
𝑦𝑡
𝑥𝑇
𝑦𝑇
GM表現上での3つの分布の違い
2015/6/27 18 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
• 予測分布: p 𝑥𝑡|𝑦1:𝑡−1
• フィルタ分布:p 𝑥𝑡|𝑦1:𝑡 • 平滑化分布: p 𝑥𝑡|𝑦1:𝑇
𝑥1
𝑦1
𝑥2
𝑦2
𝑥0 𝑥𝑡−1
𝑦𝑡−1
𝑥𝑡
𝑦𝑡
𝑥𝑇
𝑦𝑇
GM表現上での3つの分布の違い
2015/6/27 19 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
• 予測分布: p 𝑥𝑡|𝑦1:𝑡−1
• フィルタ分布:p 𝑥𝑡|𝑦1:𝑡
• 平滑化分布: p 𝑥𝑡|𝑦1:𝑇
𝑥1
𝑦1
𝑥2
𝑦2
𝑥0 𝑥𝑡−1
𝑦𝑡−1
𝑥𝑡
𝑦𝑡
𝑥𝑇
𝑦𝑇
条件付周辺分布の簡易表記
2015/6/27 20 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
(0|0) (1|0) (2|0) (3|0) (4|0) (5|0)
(0|1) (1|1) (2|1) (3|1) (4|1) (5|1)
(0|2) (1|2) (2|2) (3|2) (4|2) (5|2)
(0|3) (1|3) (2|3) (3|3) (4|3) (5|3)
(0|4) (1|4) (2|4) (3|4) (4|4) (5|4)
(0|5) (1|5) (2|5) (3|5) (4|5) (5|5)
状態ベクトルの時刻(𝑗)
データ増加(𝑖)
1期先
予測
フィルタ
リング
1期前
平滑化
p 𝑥𝑗|𝑦1:𝑖 ≡ (𝑗|𝑖)
式で見てみる
2015/6/27 21 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
1期先予測
𝑝 𝑥𝑡|𝑦1:𝑡−1 = 𝑝 𝑥𝑡 , 𝑥𝑡−1|𝑦1:𝑡−1 d𝑥𝑡−1
∞
−∞
= 𝑝 𝑥𝑡|𝑥𝑡−1, 𝑦1:𝑡−1 𝑝 𝑥𝑡−1|𝑦1:𝑡−1 d𝑥𝑡−1
∞
−∞
= 𝑝 𝑥𝑡|𝑥𝑡−1 𝑝 𝑥𝑡−1|𝑦1:𝑡−1 d𝑥𝑡−1
∞
−∞
マルコフ
性
式で見てみる
2015/6/27 22 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
フィルタリング
𝑝 𝑥𝑡|𝑦1:𝑡 = 𝑝 𝑥𝑡|𝑦𝑡 , 𝑦1:𝑡−1
=𝑝 𝑦𝑡|𝑥𝑡 , 𝑦1:𝑡−1 𝑝 𝑥𝑡|𝑦1:𝑡−1
𝑝 𝑦𝑡|𝑦1:𝑡−1
=𝑝 𝑦𝑡|𝑥𝑡 𝑝 𝑥𝑡|𝑦1:𝑡−1
𝑝 𝑦𝑡|𝑦1:𝑡−1
ただし、分母は1時点尤度であり
𝑝 𝑦𝑡|𝑦1:𝑡−1 = 𝑝 𝑦𝑡|𝑥𝑡 𝑝 𝑥𝑡|𝑦1:𝑡−1 d𝑥𝑡
∞
−∞
式で見てみる
2015/6/27 23 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
尤度
𝑝 𝑦1:𝑇 = 𝑝 𝑦𝑡|𝑦1:𝑡−1
𝑇
𝑡=1
= 𝑝 𝑦𝑡|𝑥𝑡 𝑝 𝑥𝑡|𝑦1:𝑡−1 d𝑥𝑡
∞
−∞
𝑇
𝑡=1
実際は、対数尤度を用いる
log 𝑝 𝑦1:𝑇 = log 𝑝 𝑦𝑡|𝑥𝑡 𝑝 𝑥𝑡|𝑦1:𝑡−1 d𝑥𝑡
∞
−∞
𝑇
𝑡=1
式で見てみる
2015/6/27 24 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
平滑化
𝑝 𝑥𝑡|𝑦1:𝑇 = 𝑝 𝑥𝑡|𝑥𝑡+1, 𝑦1:𝑡 𝑝 𝑥𝑡+1|𝑦1:𝑇 d𝑥𝑡+1
∞
−∞
= 𝑝 𝑥𝑡 , 𝑥𝑡+1|𝑦1:𝑡
𝑝 𝑥𝑡+1|𝑦1:𝑡𝑝 𝑥𝑡+1|𝑦1:𝑇 d𝑥𝑡+1
∞
−∞
= 𝑝 𝑥𝑡|𝑦1:𝑡 𝑝 𝑥𝑡+1|𝑥𝑡 , 𝑦1:𝑡
𝑝 𝑥𝑡+1|𝑦1:𝑡𝑝 𝑥𝑡+1|𝑦1:𝑇 d𝑥𝑡+1
∞
−∞
= 𝑝 𝑥𝑡|𝑦1:𝑡 𝑝 𝑥𝑡+1|𝑥𝑡
𝑝 𝑥𝑡+1|𝑦1:𝑡𝑝 𝑥𝑡+1|𝑦1:𝑇 d𝑥𝑡+1
∞
−∞
状態推定の全体フロー
2015/6/27 25 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
𝜃:静的パラメータ パラメータ最適化
対数尤度 l(𝜃) を最大とする 𝜃 を選択
𝜃 に𝜃を固定 パラメータ固定
対数尤度 l(𝜃) を得る
for 𝑡 = 1, ⋯ , 𝑇 時間更新 • 1期先予測 • フィルタリング • 1時点尤度計算 • 平滑化(ここでない場合もあり)
3. 分析のビジネス展開を考える ―状態空間モデルを例に
• ここから、やっと本題
• 弁護士や会計士などの専門家に仕事を依頼した経験があると、専門家としての振舞いや、依頼者がして欲しいこと、などの勉強になるかも
2015/6/27 26 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
状態空間モデルの見せ方例
2015/6/27 27 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
オンラインモールの購買単価 (𝑦𝑡) = 𝑤𝑡+55 × 𝑆𝐸𝑂 100万 + 48 × リスティング 100万 +13 × アプリ𝐷𝐿数 1000 + 20 × 休日数
※数字や変数はフィクションです(参考先) 購買単価(𝑦𝑡)
𝑇 モデル構築期間 予測期間
予測範囲
ARIMAモデルだと
2015/6/27 28 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
オンラインモールの購買単価 (𝑦𝑡) = 𝑤𝑡+55 × 𝑆𝐸𝑂 100万 + 48 × リスティング 100万 +13 × アプリ𝐷𝐿数 1000 + 20 × 休日数
※数字や変数はフィクションです(参考先) 購買単価(𝑦𝑡)
𝑇 モデル構築期間 予測期間
予測範囲
オンラインモールの購買単価(𝑦𝑡) = 0.82𝑦𝑡−1 + 0.61𝑦𝑡−2 + 0.3𝑦𝑡−3
イマイチ 良く分からない…
以降で言いたい3点
2015/6/27 29 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
その1 動的時系列
その3 線形回帰
その2 ベイズ推定
※これらポイントが網羅的かは未チェックですが…
その1 動的時系列
2015/6/27 30 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
唐突に:ドローンの姿勢制御を考えます ※門外漢の妄想なので、間違っているかも
(1) 目標ルートを算出して設定
目的地
時間
(計算が軽い) カルマンフィルタ?
その1 動的時系列
2015/6/27 31 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
(2) 一定時間後に(数秒後?)予測位置と実際の位置との違い(予実差)を認識
目的地
時間
実際の
位置
その1 動的時系列
2015/6/27 32 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
(3) 再度、目標ルートを算出して設定 …の繰り返し
目的地
時間
実際の
位置
カルマンフィルタ?
その1 動的時系列
2015/6/27 33 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
(2‘) 突然タカに襲われたら
目的地
時間
実際の位置
その1 動的時系列
2015/6/27 34 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
(3‘) 修正が利かずに墜落
目的地
時間
実際の位置
その1 動的時系列
2015/6/27 35 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
困り事:時間粒度をどうするのか?
短くしたい事情
現場: 依頼者にありがちな希望(?)
モデル:予実差の修正が小さくなるため
長くしたい事情
現場: 計数作成コスト(人間の労力も含む)が高い
モデル:計算負荷が大きいため 局所解なのか?の人間チェックを要する場合 も多いため
その1 動的時系列
2015/6/27 36 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
「タカへの対応」は無理 → 変数は「平時」か?
不規則に行われるキャンペーン
広告ならば、突然のバズ(例:TV番組、雑誌掲載)
ひと昔のスマホ普及率の伸び → 突風下ではドローンは飛ばせない
データの制約はあるか?
非ネット系は、粗い粒度でしか出ないことも
では捨てるか、と言えない影響力がある
時間の間隔(やデータ選定)は、分析前に決めるのが 効率的な進行ですが、相反する事情は結構あります
その2 ベイズ推定
2015/6/27 37 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
1. 色々時間を要することへの理解
「最新データを追加した/変数1つ追加しただけだから、すぐ出来るよね」 → データの特性や手法によっては、そうでないことも
2. p値が使えない
「色々効く変数があるのは分かった。では、統計的な基準に基づく重要度の順序を教えてくれ」
→ 重回帰ならば、p値を持ち出すところだが… → 正面突破するなら、各変数の確率分布を見せる。 ただ、普通のビジネスマンに、確率変数を腹落ち して頂くのは、結構難しいし、時間がかかる。
その2 ベイズ推定
2015/6/27 38 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
3. 係数が動的に変わる事への理解・違和感
「データが追加されて係数を変えるのは、後出しジャンケンだろ。モデルは普遍的事実を表すものだろ」 → よくある話。誰しもが一度は通る道
4. (3. に関連して)予測時のパラメータはどうするか
観測方程式の係数 → 変数は見えるため、判断はしやすい
システム方程式の値 → 構造は分かり得ないので、対処は決めうち? → 周期性が明らかならばARIMAモデル等もあり得るが、 それって、階層ベイズモデルでは?
その3 線形回帰
2015/6/27 39 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
時系列だけど「回帰モデル性」を持つ利点
分かりやすい、納得して頂きやすい
ノイズ除去後の値と、その要因・内数展開が見える
時系列だけど「回帰モデル性」を持つ欠点
「よく分かった。では、 ・予算内でKPIを最大にする配分を教えてくれ ・KPIを…にするために必要な予算を教えてくれ」
「もし、6ヶ月前からのアプリDL数が10%増しとした際のKPIは、DL数を1.1倍して方程式に代入で良い?」
※光は波動なの?粒子なの?みたいな構図かも
まずは、回帰と時系列とでの予測を確認します
その3 線形回帰
2015/6/27 40 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
回帰モデルの予測 時系列モデルの予測
y
t x
y 予測の値域
管轄外
管轄外
学習期間
予測
[min,max]での値の補完 全て補外
その3 線形回帰
2015/6/27 41 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
困ること
過去の変数が変われば、本来は現在の係数も変わる 「変数は固定」と近似して良い?を知るのも大変
最適化は怖い 係数をいつ時点のものにする?が問題
モデルが複雑なので、最適解の計算が難しい。求まっても、普通は値域の[min, max]を抜けるか、値域の制約ギリギリを取る
過去のしがらみや政治など抜きに解は求まるので、担当者には「刺激的な数字」になるのが普通。よって、頭では理解しても、生理的・政治的に受け入れ難いことも
割り切らず「過去の可視化」だと、分析後の展開が辛い
割り切った場合、そのリスクに見合う価値が出せるか? → 割り切りを伝えないのはダメ。発覚時に大変なことに
4. まとめ
2015/6/27 42 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
本発表の振り返り
2015/6/27 43 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
第2章
状態空間モデルの推定方法を概観
第3章
状態空間モデルの前提・仮定が、ビジネスの利活用に及ぼす影響を見た
数理モデルは、モデルの前提や仮定の下でしか語れない
前提や仮定は、分析の設計、担当者の説得方法、モデルの運用方法、などを規定してしまう
私が考える大切なこと
2015/6/27 44 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
1. 理論やデータに嘘をつかない、騙さない
理論の勉強は、忠実に数理モデルを適用する大前提
困った結果への対応は、嘘やハッタリではなく、お客様とのコミュニケーションが鉄則。嘘やハッタリは、いずれ分かる
困る前に、先に困りポイントを営業や分析設計段階で見抜き、お客様の合意を取り付けて潰すのが、一番美しいのだが…
技術面で/相手の状況を見ると/期間・予算的に、等で 「出来ません」と言うべき状況もある
私が考える大切なこと
2015/6/27 45 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
その上で…
2. 出発点の「ビジネスの課題は?」を忘れない
ビジネスの興味は、大抵困りことの解消
簡単な方法で片付くならば、それに越したことは無い
3. 担当者の想いや野心を見抜き、念頭に置く
データ分析も、所詮はビジネス上の一つの道具
担当者に役立つならば、データ分析である必要もない
(営業の話だけど)担当者がビジネス上のキーマンなのか? の見極めを外すと、どんなに頑張っても報われない
参考文献
2015/6/27 46 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
参考文献
1. 『予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで』樋口知之、講談社、2011年
2. 『ビッグデータ時代のマーケティング―ベイジアンモデリングの活用』佐藤忠彦、樋口 知之、講談社、2013年
3. 『時系列解析入門』北川源四朗、岩波書店、2005年
4. 『状態空間時系列分析入門』J.J.F.コマンダー、S.J.クープマン、和合肇(訳)、シーエーピー出版、2008年
2015/6/27 47 / 47 分析のビジネス展開を考えるー状態空間モデルを例に