34
. はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 . . 21 世紀の手法対決 @motivic 33 R 勉強会@東京 2013 8 31 @motivic 21 世紀の手法対決

21世紀の手法対決 (MIC vs HSIC)

  • Upload
    motivic

  • View
    3.493

  • Download
    5

Embed Size (px)

DESCRIPTION

第33回R勉強会@東京 MICとHSICの性能比較です

Citation preview

Page 1: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

.

......21世紀の手法対決

@motivic

第 33 回 R 勉強会@東京

2013年 8月 31日

@motivic 21 世紀の手法対決

Page 2: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

目次

...1 はじめに

自己紹介

...2 21世紀の手法対決20世紀の独立性を見つける方法の限界21世紀の相関:MIC21世紀の検定:HSIC testいざ勝負!

...3 参考

参考文献

参考 HP

@motivic 21 世紀の手法対決

Page 3: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

自己紹介

twitter ID:@motivic

職業:研究室に住む妖精

研究分野代数統計 (代数幾何)情報幾何

トポロジカルデータ解析

を用いた医療統計

疫学

因果推論

統計ゆるふわ勢

@motivic 21 世紀の手法対決

Page 4: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

はじめに

注意

本日の話では交絡(擬似相関)は避けられていると仮定

ただし、本日の議論を交絡がある場合に拡張することも可能

@motivic 21 世紀の手法対決

Page 5: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

変数の独立性

.変数同士が U字型の関連を持つ場合の独立性検定..

......

U字型の相関係数はかなり小さい

普通の独立性検定をすると、独立と判定される

@motivic 21 世紀の手法対決

Page 6: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

線形から非線形へ

.従来法..

......

Pearsonの相関係数は線形的な関係を見るもの

順位相関係数は単調的な関係を見るもの

非線形な関係を見るためには離散化する必要があった

しかし離散化に恣意性が入る

 .線形から非線形へ........ 非線形の関係をうまく捉える方法が出てきた!

 

@motivic 21 世紀の手法対決

Page 7: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

21世紀の相関:MIC(Maximal Information Coefficient)

21世紀の相関係数:MIC

@motivic 21 世紀の手法対決

Page 8: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

21世紀の相関:MIC(Maximal Information Coefficient)

 

.21世紀の相関:MIC(Reshef et al, 2011)..

......

2011年に Science誌に 21世紀の相関係数なんて呼ばれるものが出てきた

これを使えば非線形な関連も捉えられる

アイデアとしては、従来の離散化には恣意性があったので、

ありうる全ての離散化をして計算すればいいじゃん、という

レベルを上げて物理で殴ればいい的な考え

@motivic 21 世紀の手法対決

Page 9: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

21世紀の相関:MIC(Maximal Information Coefficient)

 .MIC(Maximal Information Coefficient)の計算..

......

x × y < n0.6を満たす全ての x × y の離散化を考える

各分割で正規化した相互情報量が高い分割点を網羅的に探索

全分割の中で正規化した相互情報量が最大のものを選ぶ

@motivic 21 世紀の手法対決

Page 10: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

21世紀の相関:MIC(Maximal Information Coefficient)

 .MIC(Maximal Information Coefficient)の計算..

......

x × y < n0.6を満たす全ての x × y の離散化を考える

各分割で正規化した相互情報量が高い分割点を網羅的に探索

全分割の中で正規化した相互情報量が最大のものを選ぶ

@motivic 21 世紀の手法対決

Page 11: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

21世紀の相関:MIC(Maximal Information Coefficient)

 .MIC(Maximal Information Coefficient)の計算..

......

x × y < n0.6を満たす全ての x × y の離散化を考える

各分割で正規化した相互情報量が高い分割点を網羅的に探索

全分割の中で正規化した相互情報量が最大のものを選ぶ

@motivic 21 世紀の手法対決

Page 12: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

21世紀の相関:MIC(Maximal Information Coefficient)

 .MIC(Maximal Information Coefficient)の計算..

......

x × y < n0.6を満たす全ての x × y の離散化を考える

各分割で正規化した相互情報量が高い分割点を網羅的に探索

全分割の中で正規化した相互情報量が最大のものを選ぶ

@motivic 21 世紀の手法対決

Page 13: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

21世紀の相関:MIC(Maximal Information Coefficient)

 .MIC(Maximal Information Coefficient)の計算..

......

x × y < n0.6を満たす全ての x × y の離散化を考える

各分割で正規化した相互情報量が高い分割点を網羅的に探索

全分割の中で正規化した相互情報量が最大のものを選ぶ

@motivic 21 世紀の手法対決

Page 14: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

21世紀の相関:MIC(Maximal Information Coefficient)

 .MIC(Maximal Information Coefficient)の計算..

......

x × y < n0.6を満たす全ての x × y の離散化を考える

各分割で正規化した相互情報量が高い分割点を網羅的に探索

全分割の中で正規化した相互情報量が最大のものを選ぶ

@motivic 21 世紀の手法対決

Page 15: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

21世紀の相関:MIC(Maximal Information Coefficient)

.RでMICを計算するパッケージ..

......

minervaというパッケージでMICが計算できる。carsデータ (車の速さと停止距離のデータ)でMICを計算してみると、

>library(minerva)>mine(cars)$MIC[1,2][1] 0.666265

@motivic 21 世紀の手法対決

Page 16: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

HSIC(Hilbert-Schmidt Independence Criterion) test

21世紀の検定:HSIC test

@motivic 21 世紀の手法対決

Page 17: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

HSIC(Hilbert-Schmidt Independence Criterion) test

みんな大好き!再生核ヒルベルト空間!

@motivic 21 世紀の手法対決

Page 18: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

HSIC(Hilbert-Schmidt Independence Criterion) test

.再生核ヒルベルト空間を用いた独立性検定..

......

再生核ヒルベルト空間を用いたノンパラメトリックな独立性

検定 (HSIC test, Hilbert-Schmidt Independence Criterion test)なんてものもある (Gretton et al, 2005, 2010)

これを使っても非線形な関連を見つけられる

アイデアとしては、データを再生核ヒルベルト空間に移し

て、その中で関係性を見るというハイソなやり方

@motivic 21 世紀の手法対決

Page 19: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

HSIC(Hilbert-Schmidt Independence Criterion) test

x

x

i

j

k( , )

k( , )

xi

jx

Hx

ガウスカーネル kG(x, y) = exp

(− 1

2σ2||x − y ||2

)ラプラスカーネル kL(x, y) = exp

−β n∑i=1

|xi − yi |  など

@motivic 21 世紀の手法対決

Page 20: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

HSIC(Hilbert-Schmidt Independence Criterion) test

x

x

i

j

k( , )

k( , )

xi

jx

Hx

y

y

i

j

k( , )

k( , )

y i

jy

Hy

@motivic 21 世紀の手法対決

Page 21: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

HSIC(Hilbert-Schmidt Independence Criterion) test

x

x

i

j

k( , )

k( , )

xi

jx

Hx

y

y

i

j

k( , )

k( , )

y i

jy

Hy

Σyx

@motivic 21 世紀の手法対決

Page 22: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

HSIC(Hilbert-Schmidt Independence Criterion) test

.定理..

......

< ΣYX f , g >HY= E[f(X)g(Y)] − E[f(X)]E[g(Y)]

を満たす ΣYX が一意的に存在する。

HYX := ∥ΣYX∥2HS  

としたとき(∥ · ∥HS は Hilbert-Schmidtノルム)、カーネルが特性的であれば、

X ⊥⊥ Y ⇔ HYX = 0 

@motivic 21 世紀の手法対決

Page 23: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

HSIC(Hilbert-Schmidt Independence Criterion) test

.Rでの計算..

......

実装は Rcppでしています

Rcppについては第 29回 R勉強会@東京の大仏様の資料がおススメ!

http://www.slideshare.net/teramonagi/tokyor-rcpp-16709700

具体的なコードの公開は HSICを応用した論文を書くまでお待ちを

@motivic 21 世紀の手法対決

Page 24: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

MIC vs HSIC

2つの手法の勝負!

@motivic 21 世紀の手法対決

Page 25: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

MIC vs HSIC

 

U字型の関連を持つものにノイズを加えたもの

この関連をどれだけ捉えられるかの検出力で比較する

@motivic 21 世紀の手法対決

Page 26: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

MIC vs HSIC

 

@motivic 21 世紀の手法対決

Page 27: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

MIC vs HSIC

 

線形の関連を持つものにノイズを加えたもの

@motivic 21 世紀の手法対決

Page 28: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

MIC vs HSIC

 

@motivic 21 世紀の手法対決

Page 29: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

MIC vs HSIC

 

指数型の関連を持つものにノイズを加えたもの

@motivic 21 世紀の手法対決

Page 30: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

MIC vs HSIC

 

@motivic 21 世紀の手法対決

Page 31: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

MIC vs HSIC

.まとめ..

......

MICは U字型の関係ではそこそこ良いが、線形的や単調な関係に対してはノイズが入ると検出力がかなり落ちる

HSICは非線形の関係も捉えつつ、線形的や単調的な場合も従来法並みの検出力がある

 .判定..

...... HSICの勝ち!

@motivic 21 世紀の手法対決

Page 32: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

GMIC vs MIC vs HSIC

.GMICについて..

......

今週GMICというMICの検出力の低さを改善させた論文のプレプリントで出てました

論文を読んでみたところ検出力は

HSIC >>> GMIC > MIC

となりそうなので、やっぱり HSICがスゴイ

 

@motivic 21 世紀の手法対決

Page 33: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

参考文献

Reshef, D. N., Reshef, Y. A., Finucane, H. K., Grossman, S. R.,McVean, G., Turnbaugh, P. J., Lander, E. S., Mitzenmacher, M.,Sabeti, P.C.(2011). Detecting Novel Associations in Large DataSets, Science 334 (6062), 1518-1524

Gretton, A., Bousquet, O., Smola, A., and Schoelkopf, B.(2005).Measuring Statistical Dependence with Hilbert-Schmidt Norms, MPIfor Biological Cybernetics (140)

Gretton, A. and Gyorfi, L.(2010) Consistent Nonparametric Tests ofIndependence, Journal of Machine Learning Research, 11 ,pp.1391–1423

@motivic 21 世紀の手法対決

Page 34: 21世紀の手法対決 (MIC vs HSIC)

.はじめに

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 世紀の手法対決

. .参考

参考HP

MICについてTake a Risk:林岳彦の研究メモ- 2013-04-26”相関”の話&そのついでに”21世紀の相関 (MIC)”の話http://d.hatena.ne.jp/takehiko-i-hayashi/20130426/1366948560

HSICについて統数研の福水先生の HPにある色々な資料http://www.ism.ac.jp/˜ fukumizu/

@motivic 21 世紀の手法対決