多変量データ解析と 時系列解析

Preview:

DESCRIPTION

多変量データ解析と 時系列解析. 吉田 亮 ( 統計 数理 研究所 ; モデリング研究系 ) e-mail: yoshidar@ism.ac.jp スライドのダウンロード: http://daweb.ism.ac.jp/~yoshidar/index_j.htm. 1日目: 記述統計、確率分布 2日目: 推定・検定 3日目: 回帰分析 4日目: 多変量解析、時系列解析. 10:00 ~ 11:10  主成分分析 11:20 ~ 12:30  判別分析 13:30 ~ 14:40 クラスタ分析 14:50 ~ 16:00   時系列解析. - PowerPoint PPT Presentation

Citation preview

多変量データ解析と時系列解析

吉田 亮 ( 統計数理研究所 ; モデリング研究系 )

e-mail: yoshidar@ism.ac.jp

スライドのダウンロード: http://daweb.ism.ac.jp/~yoshidar/index_j.htm

1

1日目: 記述統計、確率分布

2日目: 推定・検定

3日目: 回帰分析

4日目: 多変量解析、時系列解析

2

10:00 ~ 11:10  主成分分析

11:20 ~ 12:30  判別分析

13:30 ~ 14:40 クラスタ分析

14:50 ~ 16:00   時系列解析

前日までの講義内容と比較して難易度はやや高めです。 統計学の実践をデモンストレーションすることで、統計学がどのように使

われているかを実感して頂きたい。 フォローしきれない人は、各々の要素技術をどのような局面で使うべき

か、使うことでどのような情報抽出ができるか、最低限これらのイメージを持って帰って下さい。

解析ツールの単なるユーザーになるのでなく、ゆくゆくは解析的なメカニズムをきっちりと理解し、自由自在に統計学を操れるデータ解析スペシャリストに

多変量データ解析の例

サンプル(個体)が複数の変数(特徴変数)によって特徴付けられるデータ

1 1 1 2 1

2 1 2 2 2

1 1

, , ,

, , ,

, , ,

p

p

n n n p

x x x

x x x

x x x

1 2 p

1

2

n

p = 20,000 個の特徴変数

n = 400 人の個体

3

( 例 ) 患者(個体) 400 人の約 20,000 個の遺伝子の発現量(変数)

多変量データの直観的理解は困難

データファイルを開き、数万個の遺伝子の発現値を一つずつ眺めてみましょう。並はずれた根気強さを持つ人にしかできません。

ちなみに古いエクセルでは、 65,536 行、 256 列におさまるデータしか開けません。

データをヒートマップ表示してみよう。

変数 : p = 20,000

個体

: n =

400

データ量が膨大で何も見えてこない

個体と変数をそれぞれパターンに基づき分類して、データを並べ替える

4

人間の脳は多変量データを直観・統合的に理解することが苦手

多変量解析は、大規模データを処理する上で、脳の情報処理機能の代替として使う

そもそも、多くの局面において、目で見て直観的に理解できる「単変数」のデータに対して、わざわざ統計解析を行う必要がない?

本講義では「初等的な」多変量解析の手法を概観

多変量データ解析技術は実践で間違いなく役に立つ

データの特徴を捉える• 主成分分析

• 判別分析(教師つき分類)

• クラスタ分析(教師なし分類)

• 多重回帰分析

本講義で取り扱う多変量解析の手法

データを分類する

5

多変数データの関係を捉える

準備 : 用語と記号

1, ,ix i n  総サンプル数は n で表す。

 変数の数は p で表す。

 特徴変数ベクトル( i 番目のサンプルを特徴付ける p 個の変数 )

1, 2, 1, ,, , , ,T

i i i p i p ix x x x x

p 個の特徴変数が並んでいる

添え字 i は個体番号を表す

転置記号

※  xi = ( 個体 i の体脂肪率 , 個体 i の血糖値 , 個体 i の所得 )

 (サンプル)平均ベクトル(各変数の平均値を p 個並べたもの)

1 2 1, , , ,T

p px x x x x ,

1

1 1, ,

n

j j ii

x x j pn

ベクトルの要素は各変数の平均値

6

準備 : 用語と記号

 (サンプル)分散共分散行列

2 2 1 1 1 11 1

2

2

1 11

2

2 21

2

1

2 1 1 2 21 1

1 1 2 21 1

1

1

1

1 1

1 1

1 1

, , , ,

, , , ,

, , ,

,

,

,

,

n n

i i p i p ii i

n n

i i p i p ii i

n

i

n n

p i p i p i p i

i

n

ii

n

p i pii i

x x x x xx xn

x xnS

x x xn n

x x x x x x x xn n

x x x x x x x xn

x xn n

• p × p 個の変数ペアの共分散(共変動性を表す尺度)と p 個の変数の分散(ばらつき尺度)を要素に持つ p × p の対称行列

• 単変数データの分散の概念を多変数に拡張したもの

• 多変数データの変動特性を表す最も基本的な統計量

対角要素には分散 非対角要素 ( i, j ) には変数 i と j の共分散

p7

分散共分散行列の直観的理解( 2 変数の場合)

1 2

1 2S

変数1の分散 変数 と変数 の共分散 変数 と変数2の共分散 変数 の分散

変数 1 と 2 の間に正の相関がある場合

変数 1 と 2 の間に負の相関がある場合

8

準備 : 用語と記号

 (サンプル)相関行列

2 2 1 1 1 11 1

2 2 1 1 2 21 1

1 1 2

1 2 1

2

1

1

2

1 1

2

2

1 11

1

1

1 1

1

1

1

, , , ,

, , , ,

, ,

,

, ,

n n

i i p i p ii i

n n

i i p i p ii i

n n

p i p i p i p ii i

p

p

j

p

j

p

s s s s

s s s s

s s s s

x x x x x x x xn n

x x x x x x x xn n

x x x x x x x xn n

R

s xn

2

1

n

i ji

x

標準偏差

• p × p 個の変数ペアの相関係数を要素に持つ p × p の対称行列

• 対角要素は 1

9

主成分分析 ( PCA: Principal Component Analysis )

10

主成分分析で何ができるか?

相関のある多変数データが保持する「情報」をできるだけ失うことなく、少数の変数(主成分)に要約することが目的 ( データの次元圧縮、特徴抽出 )

主成分分析が対象とする情報 = 分散や変数間の相関関係(共分散)

11

4 変数、 150 個体のデータ分布。 150 個体は3種類のグループに分類されている。

PCA を適用して 2次元の合成変数(主成分)に圧縮。元のデータの分布特性(グループ構造)が保存されている。

( 例 ) 手書き文字画像データの特徴抽出100枚の手書き文字画像 : 256 変数 (ピクセル ) 復元された 100枚の手書きデータ

復元次元圧縮

PCA を適用して 20 パターンの特徴を抽出(固有ベクトル)

12

PCA の基本的な考え方

数学 (x1,i) と英語 (x2,i) の 50 人 (n=50) の得点からなる 2 変数デ -タを重み係数 w = (w1, w2) を使って 1 変数に要約(射影)する。

, , , ,1 21 2 1 Ti i iiy w w x wx x i n

2 変数データを 1 変数(主成分)に変換

13

 重み係数 w = (w1, w2) をどのように決めるか?

 データの変動特性をできるだけ保存するように!

PCA の設計原理

  PCA は yi の分散が最大になるような w を求める。

  p 個の変数の場合も同様に

, , , , ,1 21 2 1 i pT

i i p i ix x x x iy w w w w n

max 2

1

1 n

iw

i

y yn

14

分散を最大にする射影の方向、直観的理解

w

w

n 個のデータ点を方向 w に射影する

この例では、 w’ に射影する方が得られる合成変数の分散が大きい。

15

• 元の2変数データのばらつきをより適切に反映できる変換。

• 相関の高い変数群を一つの合成変数にまとめる。

主成分分析の定式化 ①

, ,

2

1

1 1 1

1

1

n

y ii

p pn

k h k i h ii k h

Tx

S w yn

w w x xn

w S w

 計算手続きは、分散共分散行列の固有値問題を解くだけです。

 射影したデータ点、すなわち主成分の分散に対して行列表現を行います。

, , ,

, , ,

21 2 1

1 1

22 1 2

1 1

1

n n

i i ii i

x n n

i i ii i

x x x

Sn

x x x

[ 主成分の分散 ]

( y の式を代入 )

( 2次形式で表現 )

ここで、 Sx は元のデータの分散共分散行列

※ データの分散共分散行列を方向 w に射影したもの

※相関行列を使っても構いません

16

主成分分析の定式化 ②

max Ty x

wS w w S w分散の最大化

ベクトルの長さに対する拘束条件が必要

. . 1s t w

※ ここでは長さを 1 とするが、任意の値に設定しても良い。

※ 拘束条件の必要性は Sy の定義式に立ち返ればすぐに分かる。

2 T

y xc S c w S c w

係数ベクトルに任意の定数 c を掛けることで、いくらでも分散が大きくすることができる。したがって、係数ベクトルの長さに対して適当な制約を課す必要がある。

17

主成分分析の定式化 ③

max yw

S w

最適化問題を解いて、係数ベクトルを求めてみよう。

. . 1s t w

max T Tx

ww S w w w

ラグランジェ未定乗数法を使います。

ラグランジェ乗数

ラグランジェアンの微分を計算すると次の固有方程式が得られる。

xS w w

係数ベクトルはデータの分散共分散行列の固有ベクトルのいずれかになる。

ラグランジェ乗数は固有値

18

主成分分析の定式化 ④

係数ベクトルの「候補」として、 m 個の固有ベクトルが得られました。

それらの中でどれを選べば良いか?(分散を最大にするものは?)

* *x j j jS w w

( 解の候補 ) * , ,1jw j m 固有ベクトル

固有値 * , ,1j j m

(固有方程式を満たす )

最大固有値に相当する固有ベクトルが、分散を最大にする係数ベクトル

* *x j j jS w w * * * *T T

j x j j j j jw S w w w

左から固有ベクトルを掛ける

射影したデータ点の分散 固有値

固有値の大きさ = 固有ベクトルで射影したデータの分散

19

第 1 主成分、第 2 主成分、第 3 主成分

最大固有値の固有ベクトルは、分散を最大にする係数ベクトル

これに基づく合成変数を第 1 主成分と言います

, , , , , , , , ,1 1 1 1 11 1 2 2 1Ti i i p p i iy w x w x w x w x i n

大きさの順序が 2番目以降の固有ベクトルを使って、第 2 主成分から第 m

主成分を求める。

,2 2T

i iy w x

,3 3T

i iy w x

,T

m i imy w x

第 2 主成分

第 3 主成分

第 m 主成分

2

3

m

固有値 (= 分散 ) を降順に並べる

20

第1主成分だけでデータの変動特性を十分説明できないとき、第2主成分、第3主成分と順に合成変数を追加する。

第 1 主成分と第 2 主成分

第 1 主成分ベクトル

第 2 主成分ベクトル

2w

1w

, ,1 mw w は p 次元空間の正規直交基底

つまり、元データの座標変換に相当する。

21

第 1 主成分ベクトル第 1 主成分ベクトル

各主成分の解釈の仕方

係数の大きさ(主成分スコア)は各主成分に対する寄与率を表す

, math, langmath, l , ,ang11 1i i iw wy x x

math, lang,1 1w w

第 1 主成分は数学の得点を反映

math, lang,1 1w w

第 1 主成分は国語の得点を反映

22

一般に、 p 個の主成分スコアの大きいものから数個の変数を取り出し、各主成分にどのような変数が寄与しているか調べ、各々の科学的知識に基づき主成分を解釈する。

解析例:米国 50州、 居住者 100,000 人当たりの犯罪統計

23

•殺人  (Muder)

•暴行  (Assault)

•性犯罪  (Rape)

•都市部居住者人口の割合

変数間で数値データの単位(スケール)が異なることに注意

このような場合、分散共分散に基づく PCA は不適切

24

PC1 PC2 PC3 PC4

Murder -0.5359 0.418181 -0.34123 0.649228

Assault -0.58318 0.187986 -0.26815 -0.74341

UrbanPop -0.27819 -0.87281 -0.37802 0.133878

Rape -0.54343 -0.16732 0.817778 0.089024

PC1 PC2 PC3 PC4

Murder 0.041704 -0.04482 0.079891 -0.99492

Assault 0.995221 -0.05876 -0.06757 0.038938

UrbanPop 0.046336 0.976857 -0.20055 -0.05817

Rape 0.075156 0.200718 0.974081 0.072325

分散共分散行列の固有ベクトル

相関行列の固有ベクトル

各主成分は個々の変数の情報だけを反映

相関の高い変数ペアを合成することができた

第1主成分:  Murder + Assault + Rape

第 2 主成分: UrbanPop + Murder

25

主成分寄与率 : 各主成分はデータの全変動どのくらいの割合を占めるか

.1

1 2 3 4

0 62

第1主成分の寄与率

.2

1 2 3 4

0 25

第2主成分の寄与率

.3

1 2 3 4

0 09

第3主成分の寄与率

.4

1 2 3 4

0 04

第4主成分の寄与率

第1主成分と第 2 主成分でおよそ 87%の変動を説明できる残りの成分は、観測誤差と解釈することとする

26

犯罪件数多 少

都市部への人口集中度

各主成分の解釈の仕方 ②

理化学研究所 ゲノム医科学研究センター 鎌谷直之グループディレクター

理化学研究所の鎌谷直之グループディレクターは、遺伝子のわずかな個人差によって、日本人が二つの集団に大別できることを、理化学研究所が明らかにした。沖縄の人の大部分が含まれる「琉球クラスター(集団)」と、本土の人の大部分が属する「本土クラスター」があるという。25日付の米国人類遺伝学会誌に発表した。(毎日新聞  2008年 9月 26日 東京朝刊 )

27

主成分分析のまとめ

多変数データの次元削減や特徴抽出、視覚的理解に活用できる統計技法

合成変数の分散(ばらつき)が大きくなるように変数に重みを与える(データの分布特性に関連する変数を自動的に同定することに相当)

数万次元のデータでも、統計解析ソフトウェア(例えば R )を利用すれば簡単に計算できます。

参考図書

※ 初学者向け

中村 永友 (著 ) 『多次元データ解析法 (R で学ぶデータサイエンス 2) 』 共立出版

※ 中級者以上 小西 貞則 (著 ) 『多変量解析入門―線形から非線形へ』 岩波書店 C. M. ビショップ (著 ) 『パターン認識と機械学習 上・下』 シュプリンガー・ジャパン

29

分類の統計学

判別分析 + クラスタ分析

30

判別分析 ( Discriminant Analysis )

31

判別分析とは?

ある個体の特徴量(複数の観測値)から、その個体が、あらかじめ与えられたいくつかの群のどれに属するかを判断したい。例えば、

・ 血圧やバイオマーカーの検査値から、疾患・非疾患の診断を行う。

・ 財務データから、企業がデフォルト起こすかどうかを判断する。

Aさん

Aさんのデータ

B さん

B さんのデータ

効果有?無?

甲薬

甲薬

効果有?無?

32

判別ルールを作る

1 2, , , px x x x

p 個の変数で特徴付けられた個体

判別ルール

属性クラス

・・・・・

属性クラス

1G

KG

変数 x2

判別境界 ( ルール )

変数 x1

1G

データ x がこの領域に入れば G1 に分

2G

3G

33

「訓練データ」を使って判別ルールを作り、「テストデータ」にもとづきルールの良さを評価する。

訓練データ テストデータ 未来のデータ

③ 実運用

現在手元にあるデータを分割

① 「訓練データ」を使って判別ルールを設計 ② 性能評価用

グループ1  グループ2  グループ3

① 属性ラベルの分かっているデータから判別境界を学習

1G

2G

3G

② 属性ラベルの分からないデータのクラスを予測し、判別ルールの性能を評価

34

確率モデルにもとづく判別分析 

35

1 0.6ip y

2 0.4ip y

ラベルは確率的に決まる

確率モデルを導入する

, ~ , 1, ,i i i i i i iy x p y x p x y p y i n

データはある確率分布から生成されていると仮定する。

属性ラベルと特徴変数の同時分布

1, ,iy K 個体 i の属性ラベル

ix p 個の特徴変数を要素にもつベクトル

属性ラベル yi があたえられたもとでのデータ xi の条件付き分布

属性ラベル yi の実現確率

1i ip x y

2i ip x y

ラベル yi =1 のデータ生成分布

ラベル yi =2 のデータ生成分布

36

事後確率にもとづく判別

ベイズの定理 にもとづき,データが各クラスに属する(事後)確率を計算する。

1, ,i i i

i ii

p x y k p y kp y k x k K

p x

( ラベルの事後確率 )

( 例 )   P ( ラベル =企業の倒産 | 特徴 =企業の財務データ )

「特徴 xi をもつ個体がラベル yi =k に属する確からしさ」

観測された財務データ xi  の事後確率を計算する

1 ? 2 ?i i i ip y x p y x

倒産リスクは?

37

ベイズルール

 事後確率が最も大きい属性に分類する判別方式を「ベイズルール」という。

* argmaxk i ik p y k x

• 判別の平均的な誤り率(ベイズリスク)を最小にする判別方式

直観的で自然な判別方式

問題は      に対してどうようなモデルをおくのか、また、仮定されたモデルを訓練データからどうやって推定するのか?

,i ip y x

このあと正規分布モデルを例に、実際の判別分析の手続きを導出します。

38

多変量正規分布にもとづく判別

39

多変量正規分布  1次元の正規分布 :

2 2, 2

21

exp22

xp x

平均 分散 2

 多変量正規分布 : 平均ベクトル 分散共分散行列 V

/ 1,

2 1/2 12 exp

2

p T

V xVp x xV

2 変量正規分布の確率密度関数

1次元正規分布の確率密度関数

相関

高 低

40

最尤法によるパラメータの推定

 最尤法(さいゆうほう : maximum likelihood estimation)

確率分布  のパラメータ を n 個の標本 から推定する際、最尤法は尤度と呼ばれる「標本の確率分布に対する適合度」を最大にするパラメータを推定値とする。

p x 1 , , nx x

( 対数 ) 尤度 1

logn

ii

l p x

尤度を最大にするパラメータを求めるのが最尤法

100 個の標本

3 の正規分布0 の正規分布尤度

高 低

1次元正規分布の平均パラメータの推定(イメージ)

41

多変量正規分布の最尤推定

平均ベクトル1

n

ii

xn

分散共分散行列 1

1ˆ ˆ ˆn

T

i ii

V x xn

多変量正規分布の最尤推定量は、

(標本平均)

(標本分散共分散行列)

最尤推定量の導出に関する参考資料:• 自然科学の統計学 ( 基礎統計学 ), 東京大学出版会

42

線形判別と非線形判別

非線形判別-判別の識別面が非線形関数-

識別面が 2次曲線になる場合を「 2次判別」という

線形判別-判別の識別面が1次関数-

クラス 1 と判定

クラス 2 と判定

以下では、多変量正規分布を利用して、線形判別と 2次判別を導く。

43

多変量正規分布を使った線形判別 ( モデリング )

属性ラベルと特徴変数の生成過程として、多変量正規分布を仮定する。

, |i i i i ip x y k p x y k p y k

※ ここで,分散共分散行列はクラス間で共通と仮定

1/2 1/2

1 1exp

22

T

i i k kpp x y V

Vk x x

① 各ラベルに属するデータの生成モデルとして正規分布を仮定する。

① ②

1, ,i kp y k k K

② 各属性の (事前 ) 確率

K 面体のサイコロを振って属性 k を決定し、クラス k の正規分布からデータを生成する。

44

線形判別の導出 ①

1

log log

1. log

2

i i i

i ii

T

k i k i k

p x y k p y kp y k x

p x

const x xV

 ベイズの定理から、各属性ラベルの事後分布は次のような形であたえられる。

あとは、事後分布が最も大きくなる属性 k に分類すればよい。

12

マハラノビス距離

ixクラス 1 の分布 クラス2の分布

「近い」クラスに分類

45

線形判別の導出 ②

データ xi  が二つの属性 k と h のどちらに属するかを判別するには,事後分布の対数比が0よりも大きいか,あるいは小さいかを評価すればよい.

1

( , )

1 1

0

log log

1log

2

0

Ti

i iik h i

i i i

T Tkk h k h i k h

h

p x y kp y kf x

p y h p x y

w

V V

x

h

w

x

x 2

x1

識別面は 1次関数で表される

• 分散共分散行列はクラス間で共通と仮定することで、線形の識別面が得られる。

• この仮定を外すと識別面は二次曲線になる。

46

最尤推定量の計算

n 個の「訓練データ」を使って最尤法でパラメータを推定する。

1 11

log , | , , , , ,n

i i K Ki

l p y x V

1

1ˆ ˆ ˆK

T

i k i kk i in class k

V x xn

ˆk kn n

k ii in class kk

xn

混合比率

平均

分散共分散行列

(クラス k に属する個体の割合)

(クラス k に属する個体の標本平均)

(クラスごとに計算した標本分散共分散行列を さらに平均化したもの)

:kn クラス k に属する個体数

そのあとで、推定したパラメータを事後分布の式にプラグインして判別を行う。

47

多変量正規分布にもとづく 2次判別

48

2次判別と線形判別 各属性の特徴変数の分布として「共通の分散共分散行列」をもつ

多変量正規分布を仮定することで線形判別を導出した。 次に、「非共通の分散共分散行列」をもつ多変量正規分布を仮定

することで 2次判別関数を導出する。

クラス 1 と 2 の正規分布が構成する中心からのマハラノビス距離は同一と仮定

識別面は線形

異なるマハラノビス距離

識別面は 2次関数

49

多変量正規分布を使った 2次判別 ( モデリング )

属性ラベルと特徴変数の生成過程として、多変量正規分布を仮定する。

, |i i i i ip x y k p x y k p y k

① ②

1, ,i kp y k k K

② 各属性の (事前 ) 確率

クラス間で異なる分散共分散行列を仮定する。線形判別との相違点はこの点のみ。

1/22 1/

11 1exp

22

T

i i

k

kp kkp xVyV

x k x

① 各ラベルに属するデータの生成モデルとして正規分布を仮定する。

50

2次判別の導出 ①

1

log log

1 1. log log

2 2

i i i

i ii

T

k i k ik k k

p x y k p y kp y k x

p x

const V Vx x

 ベイズの定理から、各属性ラベルの事後分布は次のような形であたえられる。

あとは、事後分布が最も大きくなる属性 k に分類すればよい。

12

マハラノビス距離

ixクラス 1 の分布 クラス2の分布

「近い」クラスに分類

変更点はここ

51

2次判別の導出 ②

データ xi  が二つの属性 k と h のどちらに属するかを判別するには,事後分布の対数比が0よりも大きいか,あるいは小さいかを評価すればよい.

1 1

0 1

log log

1 log log

2

0

T Ti i

i ii

i i i

T T hki k k i k i h h i h

h

i

k

p x y kp y k

p y h

w

p x y h

Vx V x x

x w x

V

W

x

x

V

識別面は 2次曲面で表される

• 分散共分散行列はクラス間で共通と仮定することで、線形の識別面が得られる。

• この仮定を外すと識別面は二次曲線になる。

52

  Fisher (1936) が線形判別分析の例題として使用

 3種類のアヤメ - setosa, versicolor, virginica

 計測した特徴量 -がく片の長さと幅、花弁の長さと幅 (4変数)

 採取されたデータ -各アヤメをそれぞれ50サンプル収集(計 150 サンプル)

 問題 -これら4つの特徴変数から、アヤメの種類を   判別するための規則(線形判別関数)を構成する。

ヒオウギアヤメ( setosa )

Fisher (E. Anderson) のアヤメデータ

setosa と virginica を併せて1つの群とする

がく片

花片

53

setosa versicolor virginica

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Sepal.Length

setosa versicolor virginica

2.0

2.5

3.0

3.5

4.0

Sepal.Width

setosa versicolor virginica

12

34

56

7

Petal.Length

setosa versicolor virginica

0.5

1.0

1.5

2.0

2.5

Petal.Width

がく片の長さ がく片の幅 花弁の長さ 花弁の幅

① setosa, versicolor, virginica② ③①&③ vs ② を判別したい

特徴量の分布(箱ひげ図)

① ② ③ ① ② ③ ① ② ③ ① ② ③

変数をクラス① &③と②の違い?

54

 2種のアヤメの全データを訓練用とテスト用に分ける。   (ランダムに訓練データを選んで、 7:3 の割合になるようにデータを分割)

訓練データから得られた線形判別関数 (     : がく片の長さと幅、     : 花弁の長さと幅 )1 2,x x 3 4,x x

訓練データの判別結果

(訓練エラー 0.3)

テストデータの判別結果

(予測エラー 0.2)

線形判別の結果 - setosa & versicolor vs virginica-

75.537.206.114.21.0 4321 xxxx

setosa & virginica versicolor

setosa & virginica 58 12

versicolor 19 16TRUE

PREDICTION

setosa & virginica versicolor

setosa & virginica 28 2

versicolor 7 8TRUE

PREDICTION

誤判別率が高い。特に versicolor の判別性能が悪い。 誤判別の個数

55

 2種のアヤメの全データを訓練用とテスト用に分ける。   (ランダムに訓練データを選んで、 7:3 の割合になるようにデータを分割)

訓練データから得られた線形判別関数 (     : がく片の長さと幅、     : 花弁の長さと幅 )1 2,x x 3 4,x x

訓練データの判別結果

(訓練エラー 0.02)

テストデータの判別結果

(予測エラー 0.07)

2次判別の結果 - setosa & versicolor vs virginica-

setosa & virginica versicolor

setosa & virginica 69 1

versicolor 1 34TRUE

PREDICTION

setosa & virginica versicolor

setosa & virginica 30 0

versicolor 3 12TRUE

PREDICTION

2次判別を使うことで誤判別率が大幅に減少

24

23

22

21 19.3227.543.380.0 xxxx

56

データを見れば線形判別がうまくいかないことはすぐに理解できます。

「データを見る」ことが重要! 線形判 別 で は 、 setosa & virginica

(赤と青)と versicolor (緑)のグループに対して「共通の分散共分散行列」を仮定する。

しかしながら、 2群の分布形状(ばらつきの方向)は明らかに異なる。また、線形の識別面で分離することは無理がありそうである。

この場合は、データを見ることで、線形判別ではパフォーマンスが出ないことはすぐに分かる。

線形判別と 2次判別の結果に関する考察

アヤメデータの特徴量を対散布図行列で図示したもの

57

判別分析のまとめと補足

判別分析 ― ある個体を、その特徴量から、予め与えられたいくつかの群のどれに属するかを判定したいときに、既に属性の分かっているいくつかの個体の特徴量(訓練データ)を用いて判別ルールを構成し、そのルールに基づいて判定を行うこと

正規分布を利用した線形判別と 2次判別分析

上記の方法以外にも実に様々な判別分析の手法が整備されている。

•ロジスティック判別•サポートベクタマシン•アダブースト

データが非連続量(例えば、カテゴリ型の特徴変数や化合物の構造など)の場合や、クラス間の識別面が複雑な形状をしている場合は、本講義で紹介した正規分布による判別分析は直接適用できません。

また、分布の推定手法として最尤法を紹介したが、サンプル数が小さかったり、特徴データの次元が極端に高い場合は、最尤法がうまく機能しないことがあります。

58

より詳しく勉強したい人のための参考図書

小西 貞則 (著 ) 『多変量解析入門―線形から非線形へ』 岩波書店

C. M. ビショップ (著 ) 『パターン認識と機械学習 上・下』 シュプリンガー・ジャパン

金森 敬文 , 竹之内 高志 , 村田 昇 (著 ) 『パターン認識 (R で学ぶデータサイエンス 5)』 共立出版

59

クラスタ分析( Cluster Analysis, Unsupervised Learning )

60

データのパターンに応じてサンプルを分類するための統計技術 同一クラスターに分類されるサンプルは類似性が高い集団

データのかたまり(クラスタ)を見つける統計学

クラスタ分析

与えられるのは、各個体の特徴データ(多変量データ)のみで、それらを用いて各個体をいくつかの群(クラスタ)に分類する。

教師なし学習 (unsupervised learning)

判別分析

あらかじめ与えられた複数の群に対して、どの群に属するか既に分かっている各個体の特徴データを用いて、判別法を構成する。

教師あり学習 (supervised learning)

61

変数 2

変数 1

正常細胞A癌細胞B癌細胞

将来のデータ(テストデータ)

訓練データ

今手元にあるデータの属性ラベル(教師)と特徴量のパターンから判別ルールを作り、未来のデータの属性ラベル

を予測する

教師付き分類(判別分析)

62

属性ラベルの情報を利用せずに分類のルールを作る

サンプルの属性に関する情報がない 一部の属性ラベルが欠損 敢えて利用しない(仮説の検証)

教師なし分類(クラスタ分析)

変数 2

変数 1

63

大量データの視覚的理解や潜在クラスの発見

階層的クラスリングを適用して、イースト菌の 6000 遺伝子の発現パターンを分類

関連する遺伝子群の発見?

64

多変量データの直観的理解は困難 エクセルでデータファイルを開いて、数万個の遺伝子の発現値を

一つずつ眺めてみましょう。超人的な根気強さを持つ人にしかできません。

ちなみに古いエクセルでは、 65,536 行、 256 列におさまるデータしか開けません。

まずはデータをヒートマップ表示してみましょう。

変数 : p = 20,000

個体

: n =

400

データ量が多すぎて何も分からない。このような状況で多変量解析は役立ちます。

個体と変数をそれぞれパターンに応じて分類し、データを並べ替える

?

65

データの類似度

66

個体 i

類似度を評価する尺度をどのように設計する

かが鍵

変数 A

変数 B

Cluster 1

Cluster 2

類似度

特徴変数ベクトルと個体間の類似度

ix jx

jx

ix

個体 j

距離は?

各個体に対して p 個の特徴変数を観測

67

ユークリッド距

変数 A

変数

B

City-Block 距離計量

最大距離計量

標準的な類似度: (擬 )距離

u

※ 距離の公理を満たす必要はない※ その他、ピアソンの相関係数など

2

E1

,p

i ii

d u v u v

MD , max i ii

d u v u v

CB1

,p

i ii

d u v u v

(a) ユークリッド距離

(b) City-Block 距離計量

(c) 最大距離計量

v

68

K平均法 ( K-means algorithm )

69

Centroid

Centroid

Centroid

特徴空間上に n 個のサンプル ( 個体 ) が配置されている。 K 個のクラスタ中心(平均)を求める。 各サンプルを最も近いクラスタ中心に分類する。

Cluster 1

Cluster 2

Cluster 3 , ,u vD d u v中心からの距離を測る

K平均法の概要

最も近いクラスタ中心

70

Step 0. (初期化) n 個の個体を適当にグルーピングStep 1. (中心の計算 ) K 個のクラスタ平均を計算Step 2. (再グルーピング ) データ点から最も近いクラスタ平均に割り付けるStep 3. Step 1 に戻る

変数 A

クラスター 1

クラスター 2

変数 B

(1) 初期化 + クラスタ平均

変数 B

変数 A

(2) 再グルーピング

変数 B

変数 A

(3) クラスタ平均の更新

K平均法のアルゴリズム

71

72

1, ,i n 1, ,C i K

サンプルを表すインデックス :

分類関数を求める :

1

1

2 : :

,K

i jk i C i k j C j k

W C d x x

グループ内距離の総和 W(C) を最小化する学習方法

変数 B変数 B

変数 A

グループ内距離の総和をより小さくする分類を探索する

変数 A

K平均法は何をしているか?

( サンプル i はどのクラスタに属するか? )

※ グループ内総距離は集団内の同一性を測る尺度

73

素朴な方法 : GAP 統計量に基づく選択

• クラスタ数を K 個から K+1 個に増やしたとき、グループ内総距離はどれくらい減少するか?

• クラスタ数を増やしても GAP 統計量が「ほとんど減少しない」最小のクラスタ数が有効クラスタの目安

1GAPK K KW C W C

2 3 4

クラスタ数を増やしてもグループ内総距離はあまり減少しない

変数 B

変数 A

グループ数決定の指針

5 クラスタ数

グループ内距離

階層型クラスタリング ( hierarchical clustering )

74

階層状のクラスタを探索・表現 樹形図( tree diagram )によるクラスタ構造の視覚化

2 groups

3 groups

階層型クラスタリング

米国 50州の犯罪統計のクラスタ解析

階層的クラスリングを適用して、イースト菌の 6000 遺伝子の発現パターンを分類

75

最も下の階層に n 個の個体が並ぶ(これらを n 個のクラスタと考える) 段階的に最も「近い二つのクラスタの組」を選び出し、それらを一つの頂点で結ん

でいく 頂点の高さはグループ内総距離

樹形図によるクラスタ表現

米国 50州の犯罪統計(殺人、暴行、都市人口、レイプ)のクラスタ解析

n 個の個体(米国 50州)

グループ内総距離

3 clusters に分割

4 clusters に分割

サブクラスタに分割

76

階層型クラスタリングでは、個体間の類似度とは別に、「近隣クラスタ」を定義するためのクラスタ間の類似度が必要

以下、代表的なクラスタ間類似度を挙げる

クラスタの類似度

Single linkage最も近い二つの個体間の距離

Cluster 1Cluster 2

Complete linkage 最も遠い二つの個体間の距離

Cluster 1Cluster 2

Centroid linkage クラスタ中心間の距離

Cluster 1Cluster 2

Average linkageクラスタに属する個体の全組合わせから計算される平均類似度

Cluster 1Cluster 2

77

i. 単一の個体からなる n 個のクラスタから開始

ii. 最も近い二つのクラスタの組を選び、それらを一つのクラスタに併合する。

iii. 手続き ii をクラスタ数が 1 つ(全個体を含む)になるまで繰り返す。

アルゴリズム: 凝集型 (agglomerative)

BA

F

ED

CA CB D E F G

Step 1

Step 1

Step 2

Step 2

Step 3

Step 3

G

Step 4

Step 5

Step 4

Step 5

Step 6

他にも分岐型 (divisive) の方法もある。その場合、全個体を含むクラスタから開始して、逐次的にクラスタを分割しながら階層構造を構築していく。

凝集型アルゴリズムの例

78

クラスタ分析のまとめと補足 クラスタ分析 ― 特徴量のパターンが類似している集団を見つけ出し、一つの

グループに分類するための統計手法

K平均法と階層型クラスタリングについて紹介

大量のデータがあたえられたとき、まずはじめにクラスタ解析を行い、クラスタ毎にデータを図示すると、データの全体像を理解しやすくなる。

個体間・クラスタ間の類似尺度の設計が鍵

データの形式が離散値(ゲノムの配列)であったり、グラフのような構造化された特徴量の場合にも、何らかの方法で類似尺度を定義できれば、 K平均法や階層型クラスタリングを行うことができる。

※ 初学者向け

神嶌 敏弘 , " データマイニング分野のクラスタリング手法 (1) − クラスタリングを使っ

てみよう! − ", 人工知能学会誌 , vol.18, no.1, pp.59-65 (2003)

中村 永友 (著 ) 『多次元データ解析法 (R で学ぶデータサイエンス 2) 』 共立出版

※ 中級者以上 小西 貞則 (著 ) 『多変量解析入門―線形から非線形へ』 岩波書店 C. M. ビショップ (著 ) 『パターン認識と機械学習 上・下』 シュプリンガー・ジャパ

ン 79

時系列データ解析入門

80

時系列データの記述統計的な処理(データの視覚化、自己相関や相互共分散を使った動的変動特性の要約)

自己回帰モデル (AR model: autoregressive model) : 時系列データに対する最も標準的なモデリング技法

多次元自己回帰モデル (VAR model: vector autoregressive model): AR モデルを多変数モデルに拡張したもの

本講義で概観する時系列解析の技法

時系列データ( Time Series Data ) : 時間とともに不規則に変動する現象の記録

81

時系列データの例 ①

(a) 月毎に測定した太陽黒点数の変動 (1749-1983, 2988 観測値 )

(b) 1974-1979年英国の呼吸器系疾患 (肺癌、肺気腫、喘息 ) による月別 死亡者数

82

時系列データの例 ②薬剤

に対

して

感受性

のあ

る細胞

薬剤耐性

を獲得

した細胞

薬剤

を投与

薬剤

を投与

がん細胞の 17,654 遺伝子の働きを 24 時間モニタしたもの

0-24 ho

urs

83

様々な時系列データ

定常時系列と非定常時系列

定常 : 確率的特性が一定で時間的に変化しないもの

非定常 : 確率的特性が時間とともに変化するもの

連続量と離散測定値

1 変量時系列と多変量時系列データ

• 株価・為替レート

• 地震波の東西成分

• 小売食品業に従事する労働者人口

• 細胞内のタンパク質発現量の時間変化

• 船舶の横揺れ、縦揺れ、エンジンの回転数

• 消費者の購買履歴

84

時系列データ解析の目的

記述( Description )

時系列データを図示したり、基本記述統計量を計算してデータの特性を表現する。

モデリング (Modeling)

時系列モデルを設計・推定し、データの時系列特性を理解したり、将来のデータに対する予測式を構築する。

予測 (Prediction)

現在までにえられたデータをもとに将来のデータを予測する。

制御 (Control)

操作可能な変数を適当に変化させ、制御変数の望ましい変動を実現する。

データの測定 統計処理 モデリング

分析

予測

制御85

時系列データの 1次処理

実際の時系列解析では多くの場合、モデリングや予測などを行う前に、計測値に対して適切な変換を施す必要がある。

    (a) 変数変換、 (b) 階差、 (c) 前年比・前期比、 (d) 移動平均平滑化、など

( 例 ) あるサーバー経由でインターネットに接続したユーザの数(毎分)(観測数100)

原データには、強いトレンド成分が観測される

原データの1階差分をとることで、ある程度トレンド成分を除去できる

86

変数変換が有効な例

1960-1980年の Johnson-Johnson の一株当たり四半期毎利益 ( 単位ドル )

ベースラインの上昇に伴い分散が増大する傾向がある。

分散不均一性のあるデータの時系列解析は取り扱いが難しいのであらかじめこれを除去して

おきたい。

対数変換を施すことで、分散不均一性を緩和

対数変換を施しても、トレンドは除去できないトレンド : 時間によって連続的に変化するベースライン

の変化87

差分によるトレンドの除去

1t t tx y y 1, ,ty t n

ty a bt 元のデータは時間 t の 1次式で表される。

t : 時間 ; a: ベースライン ; b: 勾配

1階差分をとると、トレンドを除去できる。

1t t tx y y b

データのトレンドはほぼ 1次関数で表現可能

2ty a bt ct

元のデータは時間 t の 2次式で表されるなら 2階差分をとると、トレンドを除去できる。

1 1 22 2t t t t tx x y y y c

t に依存しない

88

移動平均フィルタ

1

2 1t t K t t Kx y y yK

現時刻を中心に前後( 2K+1 個)のデータの平均を計算し(移動平均)、時系列データのノイズを除去する(フィルタ)。

ラグ数 K を大きくとるにつれ滑らかな補正値がえられる。

原データ ( 赤 ) に対して、ラグ数の K=1 から K=12 の移動平均フィルタを適用した結果

89

平均、分散、自己共分散 / 自己相関関数

,

,

,

,

t t k t t t k t k

t t t k

t k

t

t k

t t k

t t k

k

C Cov Y Y E Y Y

E Y YR Corr Y Y

Var Y Var Y

自己共分散関数

自己相関関数

一般には、時間 t やラグ数 k の関数であることに注意

時系列データ ty確率過程 1 2, , ,tY t

平均 tt E Y

分散 2

tt t tS Var Y E Y

 時系列データはある確率過程にしたがう確率変数の n 個の実現値と見なす

 確率過程を特徴付ける量

90

(弱 ) 定常性の定義

確率変数の平均と分散の値が時点 t に依存せず , 自己相関係数(自己共分散関数)の値が 2 時点の差 k のみに依存するとき、確率過程は定常であるという。

ラグ数 k の関数であることに注意

,

,

t t k t t k

t t k

t t

t t k

k k

kC Cov Y Y E Y Y

E Y YR Corr Y Y

Var Y Var Y

自己共分散関数

自己相関関数

平均 tE Y

分散 2

t t tS Var Y E Y

時刻 t に対して不変

91

自己共分散 / 自己相関関数の推定

1 変量時系列データに関する最も基本的な記述統計量は 自己共分散 (auto-covariance)と自己相関係数 (auto-correlation) である。定常時系列があたえられたとき、平均、自己共分散および自己相関関数の推定値は次式により計算される。

1

1

0

1

1

ˆ

ˆ ˆ ˆ

ˆˆ

ˆ

n

tt

n

k t t kt k

kk

yn

C y yn

CR

C

標本自己共分散関数

標本自己相関関数

確率過程が定常の場合、サンプル数が増加するにつれ、真の平均、自己共分散 / 自己相関関数に収束することが保証される。

標本平均

92

(例) 自己相関関数の推定

正の自己相関が次第に減衰

周期的減衰?

米国四半期毎の大統領支持率

(ギャラップ社調査 )

女性の 10 分間隔の血液中の黄体形成ホルモン量の時系

93

相互共分散 /相互相関関数(多変量時系列の基本統計量)

多変量時系列データの場合には、平均、自己共分散および自己相関関数以外に、相互共分散や相互相関関数と呼ばれる変数間の時間依存性を表す基本統計量が重要である。

, , , ,, ,i t j t k i t i j t kk jC i j Cov Y Y E Y Y

変数 i と j の相互共分散関数(ラグ k )

, ,

, ,

, ,

, ,i t i j t k j

i t j t k

i t j t k

k

E Y YR i j Corr Y Y

Var Y Var Y

変数 i と j の相互相関関数(ラグ k )

,i ty

,j t ky

( 時刻 t の変数 i )

( 時刻 t - k の変数 j )

スケーリング

94

相互相関関数の推定

1974-1979年英国の呼吸器系疾患 (肺癌、肺気腫、喘息 ) による月別 死亡者数

男性 女性 標本相互共分散

1

1, ,

ˆ ˆ ˆ,n

k i t i j t k jt k

C i j y yn

0 0

ˆ ,ˆ ,ˆ ˆ, ,

kk

C i jR i j

C i i C j j

標本相互共分散関数 標本相互相関関数

95

時系列データの予測

これまでは、時系列データの統計処理や基本統計量にもとづく動的特性の抽出方法を概説してきた。次に、時系列解析の実運用において最も重要な「予測」の概念を説明する。

例えば、天気予報における気温予測、主要先進国の次四半期 GDP .....

1 2 1, , ,sy s t 時刻 t -1 にえられた観測値集合

M 次線形予測子

時刻 t の値  を予測することを考えるty

直近の M 個のデータの線形結合を使った予測方式(線形予測子)

1

ˆM

t m t mm

y a y

1, ,ma m M ( M 個の係数)

予測誤差 ˆt t ty y

簡単化のため、時系列の平均は時刻によらず0としておく

96

最良線形予測

最良の予測方式をどのように構成するか(係数の決定)

1 2, , ,t my m M

予測誤差の列 ˆt t ty y

直近の M 個のデータ

これらが無相関かつ平均 0 で分散一定になるように結合係数をあたえる。これを「最良線形予測」という。

1 2, ,t

1 2, ,t

直観的理解―過去M 時点のデータが持つ情報を余すことなく利用して yt を予測するということは、「誤差系列」の予測をこれ以上改善することができないことを意味する。

「過去のデータと誤差系列の間」に無相関性が成り立つように予測子を構成すると、「予測誤差の系列は互いに相関しない平均0、分散一定の確率変数(白色雑音)になる。

97

自己回帰モデル( Autoregressive Models )

例えば、誤差項に正規分布を仮定1

M

t m t m tm

y a y

20 ,t tE Var ( 分散は時刻によらず一定 )

定常性の条件: 上の式から生成される時系列が定常確率過程であるためには、M 個の係数よってあたえられる z に関する特性方程式の根が全て1より大きくなることが必要。

21 21 0M

Ma z a z a z

特性根に関する条件が満たされるとき、 M  次の自己回帰モデルと呼ぶ。

観測値と線形予測子を結ぶ関係を表現したものを考える。

20~ ,t N

誤差項を 0 においたとき、どんな初期値から出発しても時刻を無限にすれば yt は 0 に収束する。

パラメータ: 21, , , Ma a

98

自己回帰モデルの推定

• 最小二乗法• Yule-Walkerアルゴリズム• Levinson-Durbin の逐次公式• バーグアルゴリズム

 最尤推定は以下の AR モデルの対数尤度を最大化すればよい。

1 1 11

log , , log , , log , ,n

n M t t t Mt M

p y y p y y p y y y

しかしながら、厳密な最尤推定値を求めるためには、数値的に最適化問題を解かなくてはならないので、近似解を求めるために以下のような簡易計算手法が提案されている。

• 北川 『時系列解析入門』 岩波書店• 赤池 (監修 ) 尾崎(編) 北川(編) 『時系列解析の方法』 朝倉書店

 詳しく勉強したい人向けの参考図書

99

自己回帰モデルの適用例

1

M

t m t m tm

y a y

20~ ,t N   AR次数は M = 1 ~ 10

 月毎に測定した太陽黒点数の変動 (1749-1983, 2988 観測値 )

次数が小さいと、予測値系列に周期が出ない

実測値

フィッティング予測( 25 時点)

高い次数のモデルを使うことで、時系列データの周期特性を捉えることに成功

100

AIC による次数選択

自己回帰モデルにもとづく予測では次数選択がとても重要 赤池情報量規準 ( AIC: Akaike Information Criterion ) を最小にする次数を選択AIC (M) = - 2 ( M 次 AR モデルの最大対数尤度 ) + 2 ( パラメータ数 )

    = - モデルの適合度 + 高次モデルを使うことに対する罰則  

次数を 1 から 20 に変化させたときの AIC の推移

M = 9 を選択

101

多変量 AR モデル( VAR: Vector Autoregressive Models )

互いに時間的依存性のある多変数の時系列データが得られる場合、予測する変数以外の情報を用いて予測を行うことが望ましい。

VAR モデル

1, ,, ,T

t t p ty y y

1

M

t m t m tm

y A y

0 0, ,T

tE Tt s p pE O t s

Am は p×p の係数行列で、要素は p 個の変数間のラグ m の時間依存関係を表す

VAR モデルの確率特性や推定方法については、参考図書を参照※1変量 AR モデルと同様に、最小二乗法や Yule-Walkerアルゴリズムを使って簡単に推定できる。• 北川 『時系列解析入門』 岩波書店

• 赤池 (監修 ) 尾崎(編) 北川(編) 『時系列解析の方法』 朝倉書店

102

多変量 AR モデルの適用例 (1/2)

米国の経済指標( 4 変数)の推移 : (1) マネタリベース (M1) ; (2) 実質 GNP; (3) 91 日物 TB金利 ; (4) 長期債金利

原系列 差分によるデータ処理

103

多変量 AR モデルの適用例 (2/2)

次数2で最小になるが、次数の変化に対して AIC の値のばらつきが大きく、信頼性は低い。とくに、次数 2と次数 5 の差はとても小さい。

AIC にもとづくモデル選択M = 1 ~ 20

M = 2

M = 5

104

時系列解析のまとめと補足

本講義では、 (a) 時系列データの統計処理、 (b) 基本統計量にもとづく時系列特性の要約、 (c) 自己回帰モデルにもとづく予測について概観してきた。

時系列解析のほんの一部に触れたに過ぎない。時系列解析を本格的に学ぼうという意思のある方は、本講義では触れることの出来なかった次の内容についてもフォローして下さい。

• 季節調整法• トレンド解析• 周波数領域の分析手法: スペクトル解析、ピリオドグラム• ARMA ( autoregressive moving average ) モデル• 状態空間モデルによる非定常時系列データの解析• モデル選択

参考図書

• 北川源四郎 『時系列解析入門』 岩波書店

• 赤池 (監修 ) 尾崎(編) 北川(編) 『時系列解析の方法』 朝倉書店

105

本講義で使ったスライドのダウンロードhttp://daweb.ism.ac.jp/~yoshidar/index_j.htm

106

Recommended