Upload
ak-ok
View
72
Download
1
Embed Size (px)
Citation preview
数理統計 : モデルを選ぶ
****専攻 **** ****
1
**********************
研究室のMy本棚
情報幾何 漸近論 数理統計 その他 印刷した論文
2
線形回帰 ≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸
0.0 0.2 0.4 0.6 0.8 1.0
1.0
1.2
1.4
1.6
1.8
2.0
x
y
3
0.0 0.2 0.4 0.6 0.8 1.0
1.0
1.2
1.4
1.6
1.8
2.0
x
y
線形回帰 ≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸ 4
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.1
0.2
0.3
x
y
データが変わるとモデルも変える
5
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.1
0.2
0.3
x
y
直線では上手くフィットしない
6
0.0 0.2 0.4 0.6 0.8 1.0
-0.1
0.0
0.1
0.2
0.3
x
y
0.0 0.2 0.4 0.6 0.8 1.0
-0.1
0.0
0.1
0.2
0.3
x
cb
(x)
2次曲線のほうが当てはまりが良い
7
データを予測するモデル
≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸ ≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸ ∫ ≡ ∲ ≸ ∲ ∮ ∮ ∮ ≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸ ∫ ⊢ ⊢ ⊢ ∫ ≡ ≮ ≸ ≮
どれを選ぶ?
8
高次のモデルは低次のモデルを含む
≦ ≡ ∰ ∫ ≡ ∱ ≸ ≧ ⊽ ≦ ≡ ∰ ∫ ≡ ∱ ≸ ∫ ≡ ∲ ≸ ∲ ≧ ≡ ∰ ∻ ≡ ∱ ∻ ≡ ∲ ∲ ≒ について
高次のモデルほど(データの)表現力が豊か (i.e. 2次のモデルは1次のモデルを含む)
⇒ 高次のモデルを使えばよい?
9
4次のモデルでやってみた
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.1
0.2
0.3
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.1
0.2
0.3
x
cb
(x)
2次のモデルとほとんど変わらないような・・・
10
余計な次元は使わない
同様のデータを説明する仮説が二つある場合、 より単純な方の仮説を選択せよ
[オッカムの剃刀]
(同等の性能なら)
シンプルなモデルのほうが良いよ
11
• Akaike Information Criterion 最小化:
出来るだけ次元を削減する
: モデルがデータに当てはまる度合い. ≠ ∨ ≞ ⊵ ∩
が同じなら, 次数が小さいほうが選択される ≠ ∨ ≞ ⊵ ∩
≁ ≉ ≃ ∺ ∽ ⊡ ∲ ≠ ∨ ≞ ⊵ ∩ ∫ ∲ ≰
: モデルの次数 ≰
12
他の基準もある
≁ ≉ ≃ ∺ ∽ ⊡ ∲ ≠ ∨ ≞ ⊵ ∩ ∫ ∲ ≰ ≂ ≉ ≃ ∺ ∽ ⊡ ∲ ≠ ∨ ≞ ⊵ ∩ ∫ ≰ ≬ ≯ ≧ ≮ ≍ ≄ ≌ ∺ ∽ ≂ ≉ ≃ ∽ ∲ ≇ ≉ ≃ ∺ ∽ ⊡ ∲ ≠ ∨ ≞ ⊵ ∩ ∫ ∲ ≴ ≲ ≇ ≈ ⊡ ∱
∮ ∮ ∮
どれが良いかは宗教論争
13
• 新しい情報量基準を計算:
自分の卒論の宣伝
外れ値を自動的に無視.
≉ ≃ ≂ ∺ ∽ ≮ ⊢ ≤ ≂ ∨ ≞ ≱ ∻ ≞ ≰ ⊯ ∩ ∫ ≴ ≲ ≞ ≇ ⊯ ∻ ≂ ≞ ≈ ⊡ ∱ ⊯
14
ところで最近よく言われること
ビッグデータ?
(統計やってます)
わたし
はじめてあう人
15
ビッグデータは統計ではない(?)
• 「少ないデータからいかに推測するか」が統計
• 数が多けりゃだいたいどうにかなる
• 「処理できるかどうか」という計算機の問題
いや・・・高級な処理は負荷かかるし・・・ どうせ簡単な統計処理しかできないし・・・
16
• ビッグデータ… ではなく
高次元データ
高次元データが注目されている(らしい)
ビッグデータ = データの数が多い
高次元 = データの種類が多い
17
• 色んな種類のデータがある(=高次元)けど
意味のあるデータは一部しかない
世の中のデータの大半は無意味
意味のあるデータを「選ぶ」
18
• 各個体は多様な遺伝子を持っている:
たとえば遺伝子
遺伝子 a b c d e f g h …
個体1 1 0 0 1 1 1 0 1 …
個体2 0 1 1 1 1 1 0 1 …
個体3 1 1 1 0 1 1 0 1 …
個体4 0 0 0 1 1 0 1 0 …
…
個体100 1 1 1 0 1 0 1 1 …
データの種類(多い) ※データの数=100 (少ない)
19
• 色々なモデルを考える:
どの遺伝子が病気に影響するか?
遺伝子aのみが影響すると仮定したモデル
遺伝子bのみが影響すると仮定したモデル
遺伝子a,bが影響すると仮定したモデル
遺伝子a,b,d,e,…が影響すると仮定したモデル
全ての遺伝子が影響すると仮定したモデル …
モデルを選ぶ
20
あるモデルが選ばれた
遺伝子a,d,e,hが影響すると仮定したモデル
が選ばれたとする.
遺伝子a,d,e,hが病気に影響していると考えられる. ※ホントはこの表現はよくない
その他の遺伝子は無関係.
21
• (とりあえず)色んな種類のデータを用意する.
• 有用なデータを「選ぶ」.
どのデータが有用かは分からない
学生のテストの点数を予測したい
•身長 •体重 •視力 •塾に通った年数、…etc
有用なデータを
「選ぶ」
22
• 不要なデータを自動的に無視: スパース推定
実はモデルを選ぶまでもない
Least Absolute Shrinkage and Selection Operator
≌ ≁ ≓ ≓ ≏ ∺ ∽ ≡ ≲ ≧ ≭ ≩ ≮ ⊯
⊩ ≫ ≹ ⊡ ≘ ⊯ ≫ ∲ ∲ ∫ ⊸ ≫ ⊯ ≫ ∱ ⊪
23
ディスカッションの時間があるらしい…
24
• 数理的なテクニックのイメージを掴むこと
• 証明には(あんまり)興味が無い
• プログラムは書か(け)ないが アルゴリズムを考えるのは好き
• 工学系の話の数理的な裏付けとか大好き
自分の興味対象:
おわり.
25