12
CONFIDENTIAL INFRASTRUCTURE + LIFE + INNOVATION 2017/11/08 TDAを構成する技術の紹介 ~PCA編~

TDAを構成する技術の紹介 ~PCA編~

Embed Size (px)

Citation preview

CONFIDENTIAL

INFRASTRUCTURE + LIFE + INNOVATION

2017/11/08

TDAを構成する技術の紹介 ~PCA編~

CONFIDENTIAL

前回のおさらい

TDAとは、

データ分析の手法の1つ(機械学習、深層学習など)

位相幾何学(Topology)を用いてデータの形状を可視化し分析する。

2017/11/08

CONFIDENTIAL

Point Cloudの作り方

2017/11/08

統計量や次元削減など様々な手法を用いることができる。

本日は、その中でPCAについて紹介する。

https://www.slideshare.net/AnalyticsWeek/tda-33562822

CONFIDENTIAL

主成分分析(PCA)

2017/11/08

情報の損失を少なくデータの次元を削減する手法

高次元データでも2 or 3次元に落とせば可視化できる。

CONFIDENTIAL

2017/11/08

55

60

65

70

75

80

85

90

155 160 165 170 175 180 185 190 195

身長、体重をプロットしたもの。

これを1次元で表したい。

CONFIDENTIAL

2017/11/08

55

60

65

70

75

80

85

90

155 160 165 170 175 180 185 190 195

体重の軸に投影

身長の軸に投影

片方の軸に投影してしまうと、もう一方の情報が失われてしまう。

CONFIDENTIAL

2017/11/08

身長、体重の両方の情報を入れた軸が欲しい。

55

60

65

70

75

80

85

90

155 160 165 170 175 180 185 190 195

直感的にこのような軸が思い浮かぶ

CONFIDENTIAL

2017/11/08

55

60

65

70

75

80

85

90

155 160 165 170 175 180 185 190 195

なぜこれが良いと思うか?

55

60

65

70

75

80

85

90

155 160 165 170 175 180 185 190 195

特徴の異なる点が近くに来てしまう

CONFIDENTIAL

2017/11/08

55

60

65

70

75

80

85

90

155 160 165 170 175 180 185 190 195

データの広がりが大きい方向に軸を取ればデータを区別できる

CONFIDENTIAL

PCAの弱点

2017/11/08

複雑なデータを区別できない。

元の空間での距離関係がなくなってしまうことがある。

digitデータセット(64次元)をPCAで可視化

CONFIDENTIAL

PCAの利点

2017/11/08

新しい軸(z)が元の変数で表すことができる。・ 身長 体重

次元削減後のデータが次元削減前の何%の情報量を持つか(寄与率)が計算できる。

55

60

65

70

75

80

85

90

155 160 165 170 175 180 185 190 195

例) z = 0.6 x 身長 + 0.4 x 体重

CONFIDENTIAL

まとめ

2017/11/08

PCAとは、

・情報の損失を少なくデータの次元を削減する手法・データの広がり(分散)の大きい方向に軸を取る・複雑なデータの次元削減には向かない

・元の変数で新たな軸を表せるので、次元削減後のデータの解釈が容易

TDAにおいて、・データを分割する際の基準に使える