40
Excel で学ぶ 多変量データ処理入門 坂 元 保 秀

Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

Excelで学ぶ

多変量データ処理入門

坂 元 保 秀

Page 2: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft
Page 3: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

ま え が き

本テキストは,種々の分野で収集された多変量データをMicrosoft Excelを用いて

処理する方法を述べたものである.特に,収集した多変量データを処理するために

Softwareがなく断念した,また Softwareを購入するまでに至らなかった等,初期の

目的を達成できなかったとの意見を聞いたことがあり Excel の基本関数を用いて解

析を試みた.

多変量統計解析の理論を理解するためには,かなり統計学の基礎知識や数学的基礎

知識を理解しておく必要があるが,それぞれのデータ処理法が何を目的としたデータ

処理なのかを理解して解析の方法論を修得して欲しいと願っている.

本テキストでは,時間さえ十分にかければMicrosoft Excelを用いて多変量データ

の処理は可能であることをポイントとしている.各章に Excel 演習問題ワークシー

トおよび Excel演習問題解答を配置し,また固有方程式の解法には Excel VBA を用

いてプログラムを Excelシートに作成した.いくつかの章に対しては,Excel 演習問

題ワークシート No.1 と No.2 または No.3 の三つを提示しているので,応用として

No.2 または No.3 のワークシートにも挑戦していただきたいと願っている.演習問

題で扱ったデータは,表示用として少ない変数およびサンプルとして提示してある

が,本来の多変量データは多変数および多サンプルとなるので,本書では処理方法に

重点をおいている.さらには統計的な解析については言及していない.

本テキストで示した Excel 演習問題ワークシートおよび Excel 演習問題解答につ

いてはホームページで公開した.公開先のURLは,

http://www.page.sannet.ne.jp/yo-skmt/

である.また本書で扱っている次の

(1)重回帰分析 (2)主成分分析 (3)因子分析

(4)判別分析 (5)正準相関分析 (6)クラスター分析

(7)数量化理論Ⅰ類 (8)数量化理論Ⅱ類 (9)数量化理論Ⅲ類

(10)数量化理論Ⅳ類

の処理方法については,Windows 用アプリケーションソフトとして開発作成して公

開し,インストールをWindows XP/7/8/8.1/10まで対応させた.本書については大学

での演習や社内教育等でご利用いただきご意見を賜れば幸いである.

2015/02/12修正

2017/03/29修正 坂 元 保 秀

(元 TGU教授)

Page 4: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-i-

目 次

まえがき

第 1章 行列の基礎

1.1 ベクトル表現・・・・・・・・・・・・・・・・・・・・・ 1

1.2 行列表現・・・・・・・・・・・・・・・・・・・・・・・ 1

1.3 ベクトルの演算・・・・・・・・・・・・・・・・・・・・ 1

1.4 行列の演算・・・・・・・・・・・・・・・・・・・・・・ 2

1.5 逆行列・・・・・・・・・・・・・・・・・・・・・・・・ 3

第 1章 Excel演習問題・・・・・・・・・・・・・・・・・・・ 4

第 2章 統計的処理の基礎

2.1 データの分布・・・・・・・・・・・・・・・・・・・・・ 5

2.1.1 ヒストグラムの作成法・・・・・・・・・・・・・・・・ 5

2.1.2 散布図の作成法・・・・・・・・・・・・・・・・・・・ 6

2.2 データの基本統計量・・・・・・・・・・・・・・・・・・ 6

2.2.1 分布の中心的傾向・・・・・・・・・・・・・・・・・・ 6

2.2.2 分布の散らばり的傾向・・・・・・・・・・・・・・・・ 7

2.2.3 二つの特性間の関係・・・・・・・・・・・・・・・・・ 7

2.3 正規分布・・・・・・・・・・・・・・・・・・・・・・・ 8

2.3.1 正規分布の確率・・・・・・・・・・・・・・・・・・・ 9

2.3.2 多変量正規分布・・・・・・・・・・・・・・・・・・・ 9

第 2章 Excel演習問題・・・・・・・・・・・・・・・・・・・ 11

第 3章 多変量データとは

3.1 多変量データの行列表示・・・・・・・・・・・・・・・・ 13

3.2 データの種類・・・・・・・・・・・・・・・・・・・・・ 13

3.3 多変量データの基本統計量・・・・・・・・・・・・・・・ 14

3.3.1 全変数が定量的データのとき・・・・・・・・・・・・・ 14

3.3.2 変数に定性的データが含まれるとき・・・・・・・・・・ 15

第 3章 Excel演習問題・・・・・・・・・・・・・・・・・・・ 16

第 4章 重回帰分析

4.1 重回帰分析とは・・・・・・・・・・・・・・・・・・・・ 17

4.2 重回帰モデルと偏回帰係数の推定・・・・・・・・・・・・ 17

4.3 重回帰式の妥当性・・・・・・・・・・・・・・・・・・・ 19

4.4 推定した回帰式による予測・・・・・・・・・・・・・・・ 19

4.5 変数間の分散共分散の推定・・・・・・・・・・・・・・・ 19

4.6 変数間の相関行列の推定・・・・・・・・・・・・・・・・ 20

4.7 変数間の偏相関行列の推定・・・・・・・・・・・・・・・ 20

第 4章 Excel演習問題・・・・・・・・・・・・・・・・・・・ 22

第 5章 主成分分析

5.1 主成分分析とは・・・・・・・・・・・・・・・・・・・・ 23

5.2 主成分の導出・・・・・・・・・・・・・・・・・・・・・ 23

5.2.1 変数が 2個の場合の主成分の導出・・・・・・・・・・・ 24

5.2.2 変数が p個の場合の主成分の導出・・・・・・・・・・・ 25

5.2.3 寄与率・・・・・・・・・・・・・・・・・・・・・・・ 25

5.2.4 因子負荷量・・・・・・・・・・・・・・・・・・・・・ 26

Page 5: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-ii-

5.2.5 主成分得点・・・・・・・・・・・・・・・・・・・・・・ 26

5.3 標準化したデータを用いる主成分分析・・・・・・・・・・ 26

5.3.1 主成分の導出・・・・・・・・・・・・・・・・・・・・ 27

5.3.2 寄与率・・・・・・・・・・・・・・・・・・・・・・・ 28

5.3.3 因子負荷量・・・・・・・・・・・・・・・・・・・・・ 28

5.3.4 主成分得点・・・・・・・・・・・・・・・・・・・・・ 28

5.4 ラグランジュの未定乗数法・・・・・・・・・・・・・・・ 29

5.5 固有方程式・・・・・・・・・・・・・・・・・・・・・・ 29

5.6 固有値,固有ベクトルを求めるプログラム使用手順・・・・ 29

第 5章 Excel演習問題・・・・・・・・・・・・・・・・・・・ 31

第 6章 判別分析

6.1 判別分析とは・・・・・・・・・・・・・・・・・・・・・ 33

6.2 説明変数1個の場合の判別分析・・・・・・・・・・・・・ 33

6.2.1 線型判別関数による判別・・・・・・・・・・・・・・・ 33

6.2.2 分散の推定・・・・・・・・・・・・・・・・・・・・・ 34

6.2.3 誤判別の確率・・・・・・・・・・・・・・・・・・・・ 34

6.3 説明変数 2個の場合の判別分析・・・・・・・・・・・・・ 35

6.3.1 線型判別関数による判別・・・・・・・・・・・・・・・ 35

6.3.2 分散共分散行列の推定・・・・・・・・・・・・・・・・ 36

6.3.3 誤判別の確率・・・・・・・・・・・・・・・・・・・・ 37

6.4 説明変数 p個の場合の判別分析・・・・・・・・・・・・・ 37

6.4.1 p変数 k群による線型判別関数による判別・・・・・・・ 37

6.4.2 誤判別の確率・・・・・・・・・・・・・・・・・・・・ 39

6.5 行列表示・・・・・・・・・・・・・・・・・・・・・・・ 39

第 6章 Excel演習問題・・・・・・・・・・・・・・・・・・・ 41

第 7章 正準相関分析

7.1 正準相関分析とは・・・・・・・・・・・・・・・・・・・ 42

7.2 正準変量および正準相関係数の求め方・・・・・・・・・・ 42

7.3 第2番目以降の正準変量および正準相関係数・・・・・・・ 46

第 7章 Excel演習問題・・・・・・・・・・・・・・・・・・・・ 47

第 8章 因子分析

8.1 因子分析とは・・・・・・・・・・・・・・・・・・・・・ 48

8.2 因子分析モデルと因子行列・・・・・・・・・・・・・・・ 48

8.3 共通性の推定・・・・・・・・・・・・・・・・・・・・・ 51

8.4 非反復法による因子行列の推定・・・・・・・・・・・・・ 51

8.5 反復法による因子行列の推定・・・・・・・・・・・・・・ 52

8.6 因子得点の推定・・・・・・・・・・・・・・・・・・・・ 53

8.7 固有方程式・・・・・・・・・・・・・・・・・・・・・・ 54

【参考】因子分析による因子得点の推定法(回帰推定法)・・・・ 55

第 8章 Excel演習問題・・・・・・・・・・・・・・・・・・・ 58

第 9章 クラスター分析

9.1 クラスター分析とは・・・・・・・・・・・・・・・・・・ 60

9.2 クラスター構成法・・・・・・・・・・・・・・・・・・・ 60

9.3 類似性を測る統計量・・・・・・・・・・・・・・・・・・ 60

9.4 クラスター間の類似性を測る統計量・・・・・・・・・・・ 61

9.4.1 クラスター間の類似性を測る最短距離法・・・・・・・・ 61

9.4.2 クラスター間の類似性を測るウォード法・・・・・・・・ 62

Page 6: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-iii-

9.5 クラスターのデンドログラム・・・・・・・・・・・・・・ 64

第 9章 Excel演習問題・・・・・・・・・・・・・・・・・・・・ 65

第 10章 数量化理論Ⅰ類

10.1 数量化理論Ⅰ類とは・・・・・・・・・・・・・・・・・ 66

10.2 ダミー法・・・・・・・・・・・・・・・・・・・・・・ 66

10.3 数量化理論Ⅰ類回帰モデルとカテゴリ数量の推定・・・・ 68

10.4 カテゴリ数量の基準化・・・・・・・・・・・・・・・・ 70

10.5 回帰式の妥当性・・・・・・・・・・・・・・・・・・・ 71

10.6 推定した回帰式による予測・・・・・・・・・・・・・・ 71

10.7 アイテム間の分散共分散の推定・・・・・・・・・・・・ 71

10.8 アイテム間の相関行列の推定・・・・・・・・・・・・・ 72

10.9 アイテム間の偏相関行列の推定・・・・・・・・・・・・ 72

第 10章 Excel 演習問題 ・・・・・・・・・・・・・・・・・・ 73

第 11章 数量化理論Ⅱ類

11.1 数量化理論Ⅱ類とは・・・・・・・・・・・・・・・・・ 74

11.2 ダミー法・・・・・・・・・・・・・・・・・・・・・・ 74

11.3 アイテム数2個の場合の数量化理論Ⅱ類・・・・・・・・ 74

11.3.1 線型判別関数による判別・・・・・・・・・・・・・・ 74

11.3.2 分散共分散行列の推定・・・・・・・・・・・・・・・ 76

11.3.3 誤判別の確率・・・・・・・・・・・・・・・・・・・ 77

11.4 アイテム数 p個の場合の数量化理論Ⅱ類・・・・・・・・ 78

第 11章 Excel 演習問題 ・・・・・・・・・・・・・・・・・・ 79

第 12章 数量化理論Ⅲ類

12.1 数量化理論Ⅲ類とは・・・・・・・・・・・・・・・ 80

12.2 ダミー法・・・・・・・・・・・・・・・・・・・・ 80

12.3 数量化変数の推定・・・・・・・・・・・・・・・・ 80

12.4 一般的なデータ表に基づく数量化変数の推定・・・・ 83

第 12章 Excel 演習問題 ・・・・・・・・・・・・・・・・・ 86

第 13章 数量化理論Ⅳ類

13.1 数量化理論Ⅳ類とは・・・・・・・・・・・・・・・・・ 87

13.2 数量化変数の推定・・・・・・・・・・・・・・・・・・ 88

13.3 分析対象物の数量化・・・・・・・・・・・・・・・・・ 90

13.4 行列Hの求め方 ・・・・・・・・・・・・・・・・・・ 90

13.5 固有値と固有ベクトル・・・・・・・・・・・・・・・・ 93

第 13章 Excel 演習問題 ・・・・・・・・・・・・・・・・・・ 96

第 14章 クロス表を応用した数量化理論Ⅰ類

14.1 クロス集計表・・・・・・・・・・・・・・・・・・・・ 98

14.2 偏差積和行列・・・・・・・・・・・・・・・・・・・・ 98

14.3 カテゴリ数量の推定・・・・・・・・・・・・・・・・・ 99

第 14章 Excel 演習問題・・・・・・・・・・・・・・・・・・ 101

第 15章 クロス表を応用した数量化理論Ⅱ類

15.1 クロス集計表・・・・・・・・・・・・・・・・・・・・ 102

15.2 偏差積和行列・・・・・・・・・・・・・・・・・・・・ 102

15.3 線型判別関数の推定・・・・・・・・・・・・・・・・・ 104

15.4 誤判別の確率・・・・・・・・・・・・・・・・・・・・ 105

Page 7: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-iv-

第 15章 Excel 演習問題・・・・・・・・・・・・・・・・・・ 106

【付録】Excel 関数を用いた基本統計量の求め方

~関数の使用法いろいろ~データ表から直接求める

方法を規準として・・・・・・・・・・・・・・・・・・・・ 107

第 1章 Excel演習問題Work Sheet解答・・・・・・・・・・・・ 111

第 2章 Excel演習問題Work Sheet解答・・・・・・・・・・・・ 113

第 3章 Excel演習問題Work Sheet01解答・・・・・・・・・・・ 116

Excel演習問題Work Sheet02解答・・・・・・・・・・・ 119

第 4章 Excel演習問題Work Sheet01解答・・・・・・・・・・・ 122

Excel演習問題Work Sheet02解答・・・・・・・・・・・ 124

【参考】各種統計量の行列(偏差積和行列,分散共分散行列

相関行列,偏相関行列)の求め方・・・・・・・・・・ 126

第 5章 Excel演習問題Work Sheet01解答・・・・・・・・・・・ 128

Excel演習問題Work Sheet02解答・・・・・・・・・・・ 132

Excel演習問題Work Sheet03解答・・・・・・・・・・・ 136

第 6章 Excel演習問題Work Sheet01解答・・・・・・・・・・・ 140

Excel演習問題Work Sheet02解答・・・・・・・・・・・ 143

第 7章 Excel演習問題Work Sheet01解答・・・・・・・・・・・ 146

Excel演習問題Work Sheet02解答・・・・・・・・・・・ 149

第 8章 Excel演習問題Work Sheet01解答・・・・・・・・・・・ 152

Excel演習問題Work Sheet02解答・・・・・・・・・・・ 157

Excel演習問題Work Sheet(SMC規準)解答・・・・・・ 162

第 9章 Excel演習問題Work Sheet解答・・・・・・・・・・・・ 167

第 10章 Excel 演習問題Work Sheet解答・・・・・・・・・・・・ 173

第 11章 Excel 演習問題Work Sheet解答・・・・・・・・・・・・ 177

第 12章 Excel 演習問題Work Sheet解答・・・・・・・・・・・・・ 181

第 13章 Excel 演習問題Work Sheet解答・・・・・・・・・・・・ 187

第 14章 Excel 演習問題Work Sheet解答・・・・・・・・・・・・ 190

第 15章 Excel 演習問題Work Sheet解答・・・・・・・・・・・・ 197

参考文献

Page 8: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft
Page 9: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-1-

第1章 行列の基礎

1.1 ベクトル表現

通常ベクトルと言えば「列ベクトル」を表し,行ベクトルは転置の記号「t」を用い

る.例えば, nxxx ,,, 21 がベクトルxであるとき,列(縦)ベクトルは次式となる.

nx

x

x

2

1

x

また,行(横)ベクトルは次式で表される.

n

t xxx 21x

1.2 行列表現

列ベクトル pxxx ,,, 21 が,

1

21

11

1

nx

x

x

x ,

2

22

12

2

nx

x

x

x ,・・・ ,

np

p

p

p

x

x

x

2

1

x

であるとき,

npnn

p

p

p

xxx

xxx

xxx

21

22221

11211

21 xxxX

を行列という.特にこの行列はn行 p 列から成る行列で pn 行列とも呼ばれる.行列X の

行と列の配置を入れ換えた行列,

nppp

n

n

p

t

xxx

xxx

xxx

21

22212

12111

2

1

x

x

x

X

を行列X の転置行列といい np 行列となる.

1.3 ベクトルの演算

二つの 1n ベクトルx, yが,

nx

x

x

2

1

x ,

ny

y

y

2

1

y

であるとき,二つのベクトルの内積は次式で定義される.

(1.1)

(1.2)

(1.3)

(1.4)

(1.5)

Page 10: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-2-

n

i

ninn

n

n

t yxyxyxyx

y

y

y

xxx1

2211

2

1

21

yx

また,二つの 1n ベクトルx, yが次式であるとき,

xx

xx

xx

n

2

1

x ,

yy

yy

yy

n

2

1

y ただし,n

x

x

n

i

i 1 ,

n

y

y

n

i

i 1

xx

n

i

i

t Sxx 1

2xx

yy

n

i

i

t Syy 1

2yy

xy

n

i

ii

t Syyxx 1

yx

となり xxS , yyS , xyS は偏差平方和または偏差積和と呼ばれる.

1.4 行列の演算

2n 行列X が次であるとき,

21

2221

1211

nn xx

xx

xx

X

行列X の転置行列とX の積は,

n

i

i

n

i

ii

n

i

ii

n

i

i

nn

n

nt

xxx

xxx

xx

xx

xx

xxx

xxx

1

2

2

1

12

1

21

1

2

1

21

2221

1211

22212

12111

XX

となる.

また, 2n 行列A が次であるとき,

yyxx

yyxx

yyxx

nn

22

11

A

(1.6)

(1.7)

(1.8)

(1.9)

(1.10)

(1.11)

(1.12)

(1.13)

Page 11: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-3-

yyxy

xyxx

n

i

i

n

i

ii

n

i

ii

n

i

i

nn

n

nt

SS

SS

yyxxyy

yyxxxx

yyxx

yyxx

yyxx

yyyyyy

xxxxxx

1

2

1

11

2

22

11

21

21

AA

1.5 逆行列

pp ( p 次)の正方行列A ( prank A )に対して,

100

010

001

11

IAAAA

を満たす行列1

A を行列A の逆行列という.また,行列 I は単位行列と呼ばれ対角要素がす

べて 1,非対角要素は 0 となる.

一般に,行列A の逆行列は次式で求められる.

A

AA

~1

ただし,A~:余因子行列 A :行列A の値

(1.14)

(1.15)

(1.16)

Page 12: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-4-

第1章 Excel演習問題

【問題 1-1】次のベクトルxの転置行列を求めよ.

7

5

8

4

2

x

【問題 1-2】次の行列X の転置行列を求めよ.

5.8487

2.5365

9.2548

8.4224

6.3152

X

【問題 1-3】次のベクトルxと yの内積 yxtを求めよ.

7

5

8

4

2

x

5.8

2.5

9.2

8.4

6.3

y

【問題 1-4】次の行列X の積 XXt

を求めよ.

5.8487

2.5365

9.2548

8.4224

6.3152

X

【問題 1-5】次の行列A の逆行列1

A を求め,さらに AA1

を求めよ.

9.2548

8.4224

5.3152

A

Page 13: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-5-

第2章 統計的処理の基礎

2.1 データの分布

2.1.1 ヒストグラムの作成法

一つの特性について多くのデータがあるとき,データの分布状態を把握することがある.

この分布状態の表現にはヒストグラムを利用する.

手順 1.多くのデータ nxxx ,,, 21 を収集する.

手順 2.範囲 Rを求める.

minmax xxR m a xx :データの最大値,minx :データの最小値

手順 3.級の幅を次式で求め,級の幅hを測定単位の整数倍に丸める.

nRh m:測定単位

手順 4.級の境界値を求める.

級 1の下部境界値 2

min1

mxy L

級 1の上部境界値 hyy LU 11

級 2の下部境界値 UL yy 12

級 2の下部境界値 hyy LU 22

以下順次,データの最大値 maxx が含まれる級まで求める.

手順 5.級の中央値を求める.

級 1の中央値 2

11

1

UL yyz

級 2の中央値 2

22

2

UL yyz

以下順次,最後の級まで求める.

手順 6.度数表を作成する.

nfff ,,, 21 はそれぞれの級の境界値の範囲にあるデータの個数である.

k

i

ifn1

表 2.1 ヒストグラム作成のための度数表

級 No. 境界値

中央値 マーキング 度数 下部 上部

1 Ly1 ~ Uy1

1z 1f

2 Ly2 ~ Uy2

2z 2f

k kLy ~ kUy kz kf

手順 7.ヒストグラムを作成する.

度数表の中央値 kzzz ,,, 21 を横軸に,カウントしたデータの度数 kfff ,,, 21

を縦軸にとり作成した図 2.1はヒストグラムと呼ばれる.ヒストグラムを作成する

と一つの特性がどのように分布しているかがわかる.

Page 14: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-6-

図 2.1 ヒストグラム

2.1.2 散布図の作成法

二つの特性 21, xx について多くの対のデータがあるとき,データの分布状態を把握する

ことがある.この分布状態の表現には散布図を利用する.

手順 1.多くのデータ nn xxxxxx 2122122111 ,,,,,, を収集する.

手順 2.それぞれ21, xx について最大値,最小値を求める.

max1x :データ1x の最大値, min1x :データ

1x の最小値

max2x :データ2x の最大値,

min2x :データ2x の最小値

手順 3.散布図を作成する.

横軸をデータ1x ,縦軸をデータ 2x として,それぞれのデータの最大値,最小値

を考えて軸上を目盛る.このとき注意しておきたいことは,二つの特性21, xx の範

囲がおおよそ正方形になるよう各軸の調整を行ない目盛る.この作成した図 2.2は

散布図と呼ばれる.散布図を作成すると二つの特性がどのように分布しているか

がわかると共に,二つの特性21, xx の関係を知ることができる.

図 2.2 散布図

2.2 データの基本統計量

2.2.1 分布の中心的傾向

(1)最頻値

データ nxxx ,,, 21 があるとき,最頻値は最も頻繁に現れる値である.

oM mode nxxx ,,, 21

(2)中央値

データ nxxx ,,, 21 があるとき,データを大小順に並べたとき中央のデータである.

Page 15: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-7-

2

1212

nn

e

xxM nが偶数のとき nnn xxxxx 121221

2ne xM nが奇数のとき nn xxxx 221

(3)平均値

データ nxxx ,,, 21 があるとき,平均値 x は次式で与えられる.

n

x

n

xxxx

n

i

i

n

121

2.2.2 分布の散らばり的傾向

(1)範囲

データ nxxx ,,, 21 があるとき,範囲 Rは次式で与えられる.

m i nm a x xxR

(2)平方和

データ nxxx ,,, 21 があるとき,平方和 S は次式で与えられる.

n

i

in xxxxxxxxS1

222

2

2

1

特に式(2.5)は偏差平方和と呼ばれ,計算のために次式が用いられることがある.

2

1

2

2

1

1

2 xnxn

x

xSn

i

i

n

i

in

i

i

(3)分散

分散V は次式で与えられる.

1

n

SV

特に,式(2.7)で求められる分散V は不偏分散と呼ばれる.

(4)標準偏差

標準偏差 sは次式で与えられる.

Vn

Ss

1

2.2.3 二つの特性間の関係

二つの特性 21, xx について対のデータ nn xxxxxx 2122122111 ,,,,,, があるとき,特性

間の関係を知ることができる.この特性間の関係については「正の相関がある」「負の相関

がある」また「相関はない」という表現を用いる.相関の有無を数量的に表現するため相関

係数を求める.相関係数は式(2.10)で与えられる.

1x についての平方和 n

x

xxxS

n

j

jn

j

j

n

j

jxx

2

1

1

1

2

1

1

2

1111

(2.8)

(2.7)

(2.6)

(2.5)

(2.4)

(2.3)

(2.1)

(2.2)

Page 16: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-8-

2x についての平方和 n

x

xxxS

n

j

jn

j

j

n

j

jxx

2

1

2

1

2

2

1

2

2222

1x と 2x についての積和 n

xx

xxxxxxS

n

j

j

n

j

jn

j

jj

n

j

jjxx

1

2

1

1

1

21

1

2211

21

相関係数は,

2211

21

xxxx

xx

SS

Sr

ただし, 11 r

計算された相関係数値から rが+1に近づけば「正の相関が強い」,-1に近づけば「負

の相関が強い」,また 0の近傍では「相関はない」と判断する.相関係数より相関の有無を

判断する目安は1

645.1

nr のとき「相関あり」と判断する.

2.3 正規分布

一つの特性のデータについて分布状態はヒストグラムを作成して把握することができる.

この特性のデータ数が多数( n )あるとき,ヒストグラムを作成すればその極限分布

は,滑らかな曲線を描き図 2.3の形となる.この分布は正規分布(またはガウス分布)と呼

ばれ統計処理の基礎となる分布で広く利用されている.

今,この特性を xとおくと正規分布の曲線 xf は,

2

2

2e x p

2

1

xxf , x

で表され確率密度関数と呼ばれる.この分布は平均値 ,分散 2 の正規分布である.

したがって,正規分布は種々の特性 xに対し,平均値 ,分散 2 の組み合わせによる分

布は無数に存在することになる.

図 2.3 正規分布 図 2.4 標準正規分布

正規分布の確率密度関数式(2.11)において,

xu

で標準化すると確率密度関数は,

2e x p

2

1 2uuf

となる.この分布は標準正規分布と呼ばれ図 2.4に示す.したがって,標準正規分布の平均

値は0,分散は21 の正規分布となる.

(2.9)

(2.10)

(2.11)

(2.12)

(2.13)

Page 17: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-9-

2.3.1 正規分布の確率

正規分布の確率密度関数において,累積分布関数を xF とおくと,

1

dxxfxF

となる.したがって, a, の範囲の xF は,正規分布における ax 値までの下側確率

axPr を示す.

aa

r dxx

dxxfaxP2

2

2exp

2

1

また,式(2.12)の標準化の式を用いた標準正規分布では, , で 1uF となり

bu 値までの下側確率 buPr は,

bb

r duu

duufbuP2

exp2

1

2

で求められる.

図 2.5 正規分布の確率 図 2.6 標準正規分布の確率

2.3.2 多変量正規分布

二つの特性 21, xx について nxxxxxx nn ,,,,,, 2122122111 の対のデータに対し

てその変数および平均のベクトルを

2

1

x

xx ,

2

1

で表すと確率密度関数は,

xxx1

212

1e x p

2

1,

txxff

で定義され,この分布は2次元正規分布と呼ばれる.ここでは分散共分散行列である.

2

21

2

122

22

2

21

2

12

2

11

ただし,

1

12

n

xxxxn

k

jjkiik

ij

2

21

2

12

4

12

2

22

2

112

22

2

21

2

12

2

11

また, 21, xx の相関係数を とすれば,

2

22

2

11

2

12

, 2

22

2

11

2 1

となる.の逆行列は式(1.16)より,

(2.14)

(2.15)

(2.16)

(2.17)

(2.18)

(2.19)

(2.20)

(2.21)

Page 18: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-10-

2

22

2

21

2

12

2

11

2

22

22

22

2

11

2

12

2

22

2

11

2

2

21

2

11

2

2

11

2

12

2

21

2

22

1

1

1

1

1 1

1

cc

cc

式(2.18)の指数部は,

2

22

2

2

22

2

22

2

11

2

221112

2

11

2

2

11

2

22

2

222211

2

12

2

11

2

11

1

1 1

2

1

2

xxxx

xcxxcxc

txx

となり確率密度関数は,

2

22

2

22

2211

2211

2

11

2

11

2

2211

2

21

2

12

1exp

12

1

,

xxxx

xxff x

となる.

さらに p 個の特性 pxxx ,,, 21 について変数,平均のベクトルおよび分散共分散行列を,

px

x

x

2

1

x ,

p

2

1

22

2

2

1

2

2

2

22

2

21

2

1

2

12

2

11

pppp

p

p

と表せば p 次元正規分布の確率密度関数は,

xxx1

212

1e x p

2

1,,,

t

pxxxff

となり,一般にこの p 次元正規分布を多変量正規分布と呼んでいる.

(2.22)

(2.23)

(2.24)

(2.25)

(2.26)

Page 19: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-11-

第2章 Excel演習問題

【問題 2-1】

次表のデータより統計量を求めよ.

表 2-1.1 データ表

特性 1x 2x 3x

4x 5x 6x 7x 8x

データ 9.2 7.4 14.3 8.6 9.0 9.4 8.6 12.7

(1)最頻値 (2)中央値 (3)平均値 (4)範囲

(5)平方和 (6)分散 (7)標準偏差

【問題 2-2】

次表のデータよりヒストグラムを作成し,平均値および標準偏差を求めよ.

表 2-2.1 データ表

データ x

5.22 4.75 5.31 4.26 4.84

5.07 5.72 4.42 5.96 5.20

5.23 4.69 5.31 5.81 5.02

5.68 4.27 4.99 4.81 5.12

4.37 5.45 4.56 5.10 5.00

4.69 4.87 4.96 4.97 4.97

5.52 3.69 4.71 5.48 5.14

4.91 5.80 4.56 4.59 4.60

5.00 5.65 5.56 5.02 4.80

4.32 4.93 5.39 5.03 5.58

【問題 2-3】

次表のデータより散布図を作成し,それぞれ特性の平均値および標準偏差,さらに相関係

数を求めよ.

表 2-3.1 データ表

No. 1x 2x No. 1x

2x No. 1x 2x

1 24 44 11 18 39 21 16 40

2 21 43 12 21 39 22 26 43

3 20 40 13 30 44 23 21 42

4 26 41 14 19 41 24 23 42

5 23 41 15 28 44 25 28 42

6 25 42 16 29 45 26 31 46

7 30 42 17 16 39 27 21 40

8 27 43 18 28 46 28 32 47

9 28 43 19 24 41 29 25 41

10 25 44 20 21 41 30 23 40

【問題 2-4】

次図の正規分布における確率を求めよ.

(1) 2,72.48.0 xPr (2) 5,100106 xPr

図 2-4.1 図 2-4.2

Page 20: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-12-

(3) 1,03.1 uPr (4) 1,05.10.1 uPr

図 2-4.3 図 2-4.4

【問題 2-5】

標準正規分布( 0 , 1 )における確率密度関数 uf および累積分布関数 uF を

求め作図せよ.

表 2-5.1 計算表

u uf uF

-4.0

-3.5

-3.0

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

Page 21: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-13-

第3章 多変量データとは

調査や分析のために我々は多くのデータを収集する.例えば,

①中古乗用車のデータ

1x 走行距離(Km), 2x 排気量(cc), 3x 年式(年), 4x 価格(万円),

のデータについて 30 台収集した.

②発売された製品Aの販売個数を

1x 北海道地区, 2x 東北地区, 3x 関東地区, 4x 東海地区, 5x 北陸地区

6x 近畿地区, 7x 中国地区, 8x 四国地区, 9x 九州地区,

の地区別に1年間調査しデータを収集した.

③児童の発育データについて

1x 性別, 2x 身長, 3x 体重, 4x 胸囲, 5x 座高,

のデータを男女 100 人を調査し収集した.

④経営指標

1x 売上総利益, 2x 営業利益, 3x 経常利益, 4x 資本回転率,

について 50 社のデータを収集した.

⑤アンケート調査を実施し次の設問

1x 設問1, 2x 設問2, 3x 設問3, 4x 設問4, 5x 設問5,

について5段階の回答を 300 人収集した.

などのように変数 pxxx ,,, 21 についてサンプル数nのデータを多変量データ(または行列

データ)という.

3.1 多変量データの行列表示

今, p 個から成る変数 pxxx ,,, 21 についてサンプル数nのデータを収集したとき,そ

のデータ表は表 3.1 となる.

表 3.1 多変量データ表

サンプル No. 1x 2x 3x px

1 11x 12x 13x px1

2 21x 22x 23x px2

n 1nx 2nx 3nx npx

得られた表 3.1 の多変量データを行列x として表示すると,

npnn

p

p

p

xxx

xxx

xxx

xxx

21

33231

22221

11211

x

となる.

3.2 データの種類

多変量データとして収集される pxxx ,,, 21 には,4 つの種類の性質をもつデータが一般

的である.それらは測定される方法により Stevens の次の尺度で表される.

(3.1)

Page 22: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-14-

(1)名義尺度

この尺度によるデータは,個体間の同値関係のみが定められているデータである.こ

のデータは等号,不等号のない分類のデータとして扱われ層別因子等がこれに相当す

る.

(2)順序尺度または序数尺度

この尺度によるデータは,同値関係の他に順位関係が定義できるデータである.この

データは等号,不等号の他に大小関係が存在し人間の感覚や物理的基準によって格付

けされたデータである.このデータの順序間の距離は問題にしていない.

(3)間隔尺度

この尺度によるデータは,順序尺度に加え順序間の距離が定義されたデータである.

一般的に加法的尺度とも言われ,数学的な加法性が成り立ち平均値,標準偏差,相関係

数などの計算が可能で従来から最も多く用いられているデータである.この尺度の原

点は任意である.

(4)比率尺度

この尺度によるデータは,原点(絶対零)をもつ間隔尺度で定義されたデータである.

このデータは等間隔,等比率が保証され,一般的に乗法的尺度とも言われ,長さや重さ

等のデータに対し諸解析が行なえるデータである.

従来,データに対し間隔尺度と比率尺度が多用されていたが,各尺度とも有効なデータの

処理法が開発されている.ここで 4 つの尺度のうち名義尺度と順序尺度(序数尺度)を定性

的データ,間隔尺度と比率尺度を定量的データと呼ぶことにする.

以上をまとめると表 3.1 となる.

表 3.1 多変量データの種類

データの種類 尺 度 意 味

定性的データ

名義尺度 性別や商品などのように分類のみを表す.

順序尺度

(序数尺度)

優,良,可,不可などのように順序に意味があり,

順序間の距離は一定でない.

定量的データ

間隔尺度 順序や間隔に意味があり原点は任意である.

比率尺度 長さや重さ等のように間隔尺度であり原点は定ま

っている.

3.3 多変量データの基本統計量

3.3.1 全変数が定量的データのとき

一般に収集した変数のデータが定量的データの場合,基本統計量として各変数の平均値,

標準偏差,分散および各変数間の相関係数等が計算される.その計算は表 3.2 に示す多変量

データ計算表を作成し,行列演算法を利用すれば容易に計算できる.

表 3.2 多変量データ計算表

サンプル No. 1x 2x px

11 xx 22 xx pp xx

1 11x 12x px1

111 xx 212 xx pp xx 1

2 21x 22x px2

121 xx 222 xx pp xx 2

n 1nx 2nx npx 11 xxn 22 xxn pnp xx

平均値 1x 2x px 0 0 0

標準偏差 1s 2s ps

データ行列x ,各変数の平均値を求めて平均値の行列を とすれば,

Page 23: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-15-

npnn

p

p

xxx

xxx

xxx

21

22221

11211

x ,

p

p

p

xxx

xxx

xxx

21

21

21

偏差行列 x は,

pnpnn

pp

pp

xxxxxx

xxxxxx

xxxxxx

2211

2222121

1212111

x

となり,平方和行列Sおよび分散共分散行列は,

xxSt

xxS t

nn

1

1

1

として求められる.また,相関行列R は式(3.4)で求められた pp の平方和行列Sの要

素を ijS ,または分散共分散行列の要素を2

ij とすると,

pppp

p

p

rrr

rrr

rrr

21

22221

11211

R ,ただし

jjii

ij

ijSS

Sr ,または

22

2

jjii

ij

ijr

として求められる.

3.3.2 変数に定性的データが含まれるとき

収集した変数のデータに定性的データが含まれているとき,基本統計量を計算すること

は意味がない.しかし層別用として扱い他変数の特徴を見出すのに大きな効果を発揮する.

また,後述するデータ処理の方法として定性的データを数量化し,計算処理を施すことによ

って目的とする多変量データを処理する.

(3.2)

(3.3)

(3.4)

(3.5)

Page 24: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-16-

第3章 Excel演習問題

【問題 3-1】

次表のように児童 10 人について身長,体重,胸囲,座高のデータを収集した.各変数に

ついて平方和行列S,分散共分散行列,相関行列R を求めよ.

表 3-1.1 データ表

No. 身長 体重 胸囲 座高

1x 2x 3x

4x

1 149 36 60 79

2 142 31 66 76

3 150 43 77 79

4 139 31 68 74

5 161 45 71 84

6 140 33 67 77

7 152 36 73 79

8 145 35 70 77

9 156 44 72 85

10 147 38 73 78

【問題 3-2】

また児童 10 人の性別のデータも収集でき身長,体重,胸囲,座高のデータ表を次表のよ

うに整理した.各変数について性別で層別しそれぞれ男児,女児の平方和行列S,分散共分

散行列,相関行列R を求めよ.

表 3-2.1 データ表

No. 性別 身長 体重 胸囲 座高

1x 2x 3x

4x 5x

1 男児 149 36 60 79

2 女児 142 31 66 76

3 男児 150 43 77 79

4 女児 139 31 68 74

5 男児 161 45 71 84

6 男児 140 33 67 77

7 女児 152 36 73 79

8 女児 145 35 70 77

9 女児 156 44 72 85

10 男児 147 38 73 78

Page 25: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

- - 17

第4章 重回帰分析

4.1 重回帰分析とは

重回帰分析とは,得られた多変量データに対し一つの目的変数 y に対して二つ以上の説

明変数1x ,

2x , 3x で回帰関係を把握する方法であり,もしこの回帰関係が数式で表現で

きるならば,説明変数の値から目的変数の値を予測することができる.重回帰分析のデータ

の形式を表 4.1に示す.

表 4.1 重回帰分析用多変量データ表

サンプル No. 説明変数 目的変数

1x 2x px y

1 11x 12x px1

1y

2 21x 22x px2

2y

n 1nx 2nx npx ny

4.2 重回帰モデルと偏回帰係数の推定

目的変数を y ,p 個からなる説明変数を xとしたとき,得られたn組のデータについて重

回帰モデルは偏回帰係数を とすれば,

iippiii xxxy 22110

ただし, ),0( 2

Ei N ni ,,2,1

で与えられる.例えば,目的変数を y ,2 個からなる説明変数とすれば,重回帰モデルおよ

びデータは,

iiii xxy 22110

nnnn xxy

xxy

xxy

22110

222221102

112211101

と表される.ここで偏回帰係数の推定値を b

とおくと推定される重回帰式は,

22110 iii xbxbbY

となる.したがって推定式は実験値と予測値の差,すなわち残差を,

)( iii Yye

とおき,この残差の二乗和 2

ie を最小にする偏回帰係数b を求めることになる.この解法

は最小二乗法と呼ばれる.

n

i

iii

n

i

ii

n

i

ie xbxbbyYyeS1

2

22110

1

2

1

2

02

02

02

1

221102

2

1

221101

1

1

22110

0

n

i

iiiie

n

i

iiiie

n

i

iiie

xbxbbyxb

S

xbxbbyxb

S

xbxbbyb

S

(4.1)

(4.2)

(4.3)

(4.4)

Page 26: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

- - 18

整理すると,

n

i

ii

n

i

i

n

i

ii

n

i

i

n

i

ii

n

i

ii

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

yxxbxxbxb

yxxxbxbxb

yxbxbnb

1

2

1

2

22

1

211

1

20

1

1

1

212

1

2

11

1

10

11

22

1

110

となる,この式(4,5)は 210 ,, bbb に関する連立方程式であり特に正規方程式と呼ばれる,した

がって,この正規方程式を解くと偏回帰係数 210 ,, bbb は求められる.今,式(4.5)の第 1 式よ

り 0b を求めると,

2211

1

2

2

1

1

1

1

0 xbxbyn

x

bn

x

bn

y

b

n

i

i

n

i

i

n

i

i

となり,さらに式(4.5)の第 2,3 式に代入すると,

n

i

ii

n

i

i

n

i

ii

n

i

ii

n

i

ii

n

i

i

yyxxxxbxxxxb

yyxxxxxxbxxb

1

12

1

2

112

1

22111

1

11

1

22112

1

2

111

が得られる.

ここで多変量データより式(4.7)に対応するベクトルを,

yy

yy

yy

n

2

1

yy

2211

222121

212111

xxxx

xxxx

xxxx

nn

xx

2

1

b

bb

とおけば,式(4.7)は,

yyxxbxxxx tt

または xyxx SbS

ただし, xxxxSxx t

yyxxSxy t

となり,偏回帰係数21,bb は,

yyxxxxxxb tt 1

または xyxxSSb 1

と求められる.ここで xxxxSxx t

はデータ21, xx の平方和行列,

1

xxS は平方和行列

の逆行列, yyxxSxy t

はデータ21, xx と y の積和行列である.

一般に目的変数を y , p 個からなる説明変数としたとき式(4.1)の偏回帰係数は,

yy

yy

yy

n

2

1

yy

pnpnn

pnp

pnp

xxxxxx

xxxxxx

xxxxxx

2211

22221

212111

xx

pb

b

b

2

1

b

とおき,

pp xbxbxbyb 22110

yyxxxxxxb tt 1

または xyxxSSb 1

(4.5)

(4.6)

(4.7)

(4.8)

(4.9)

(4.11)

(4.10)

Page 27: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

- - 19

と求められる.式(4.11)の行列1

xxS , xyS の要素を,

pppp

p

p

t

sss

sss

sss

21

22221

11211

1 1xxxxSxx

py

y

y

t

s

s

s

2

1

yyxxSxy

とすれば,偏回帰係数式(4.11)は

p

k

ky

ik

i ssb1

pi ,,2,1

と計算される.

4.3 重回帰式の妥当性

得られた重回帰式が予測などの検討を行う上で妥当であるかどうかを調べるのに重相関

係数および寄与率を計算し妥当性を考える方法がある.今, p 個の説明変数から得られた

重回帰式を,

ippiii xbxbxbbY 22110

とすれば,重相関係数とは,n個の得られたデータ iy と推定された重回帰式による予測値

iY との相関係数をいい,

n

i

i

n

i

i

n

i

ii

YYyy

YYyy

R

1

2

1

2

1

)( )(

))((

で定義される.また重相関係数の二乗2R は寄与率と呼ばれ,重相関係数はサンプル数nが

少ないとき1に近くなることがあり,理論的には説明変数が p 個でサンプル数が 1 pn

のときは常に 1R となる.寄与率は,得られた重回帰式が目的変数にどれだけ寄与してい

るかを表す尺度である.

4.4 推定した回帰式による予測

回帰係数の推定値が式(4.10)(4.14)で得られると,説明変数のある設定値に対する目的変

数の値を予測できる.ある設定値を ),,,( 00201 pxxx ,予測値を0Y とおくと予測値は,

pp xbxbxbbY 002201100

で与えられる.

4.5 変数間の分散共分散の推定

目的変数を y , p 個からなる説明変数 pxxx ,,, 21 の偏差行列を,

(4.12)

(4.13)

(4.14)

(4.17)

(4.15)

(4.16)

Page 28: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

- - 20

yyxxxxxx

yyxxxxxx

yyxxxxxx

npnpnn

pp

pp

2211

22222121

11212111

A

とすれば分散共分散行列は,

222

2

2

1

222

2

2

1

2

2

2

2

2

22

2

21

2

1

2

1

2

12

2

11

1

1

yyypyy

pypppp

yp

yp

t

n

AA

11

1

1

1

11

1

1

1

11

1

1

1

1

1

2

111

11

2

1

22

1

11

1

22

1

22

1

2

22

1

2211

1

11

1

11

1

2211

1

2

11

n

yy

n

xxyy

n

xxyy

n

xxyy

n

yyxx

n

xx

n

xxxx

n

xxxx

n

yyxx

n

xxxx

n

xx

n

xxxx

n

yyxx

n

xxxx

n

xxxx

n

xx

n

i

i

n

i

pipi

n

i

pipi

n

i

pipi

n

i

ipip

n

i

pip

n

i

pipi

n

i

pipi

n

i

ii

n

i

pipi

n

i

i

n

i

ii

n

i

ii

n

i

pipi

n

i

ii

n

i

i

となる.

4.6 変数間の相関行列の推定

目的変数を含む 1p 個の変数間の相関係数は,式(4.19)の分散共分散行列より,

yyypyy

pypppp

yp

yp

rrrr

rrrr

rrrr

rrrr

21

21

222221

111211

R ただし,22

2

jjii

ij

ijr

, 1iir

と求められる.

4.7 変数間の偏相関行列の推定

式(4.20)で求めた相関係数で,例えば変数1x と目的変数 y の相関係数 yr1 は

1x と y だけの

相関を表してはいない.なぜなら,1x と y はそれぞれ変数 pxxx ,,, 32 と何らかの相関があ

るため yr1 には pxxx ,,, 32 の影響があるためである.ここで pxxx ,,, 32 を一定にしたと

きの1x と y の相関係数を pyr 231 と表し計算された値を偏相関係数と呼び式(4.20)の相関係

数と区別する.

変数1x と目的変数 y の偏相関係数 pyr 231 は,変数 pxxx ,,, 32 がそれぞれ

1x と y に及ぼ

す影響を,

(4.18)

(4.19)

(4.20)

Page 29: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

- - 21

ppppppp xxbxxbxxbxx 23113323122223111231

ppppypypyp xxbxxbxxbyy 231332322223123

の線形関数と考えて相関係数を計算して求められる.すなわち1x と y の偏相関係数は,

n

i

ip

n

i

ip

n

i

ipip

py

yx

yx

r

1

2

23

1

2

231

1

23231

231

と定義される.具体的な演算法は式(4.20)の相関行列R より,

yyypyy

pypppp

yp

yp

rrrr

rrrr

rrrr

rrrr

21

21

222221

111211

1R

の逆行列を求め,その逆行列の要素より偏相関行列Rpは

yyypyy

pypppp

yp

yp

qqqq

qqqq

qqqq

qqqq

21

21

222221

111211

Rp ただし,jjii

ij

ij

rr

rq

, 1iiq

と求められる.

(4.21)

(4.22)

(4.23)

Page 30: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

- - 22

第4章 Excel演習問題

【問題 4-1】

ある車種の中古乗用車 11 台について経過年1x (年),走行距離

2x (万 Km),価格 y(万

円)のデータを収集し次表を得た.変数1x ,

2x から価格 y を予測したい. y について重回

帰式および重相関係数を求めよ.

表 4-1.1 データ表

No.

経過年

(年)

走行距離

(万 Km)

価格

(万円)

1x 2x y

1 3.0 1.1 75.0

2 6.0 2.4 49.8

3 5.0 9.4 29.0

4 4.0 9.1 30.0

5 9.0 6.5 19.8

6 6.0 3.9 49.0

7 5.0 4.9 49.0

8 6.0 4.5 28.0

9 3.0 6.8 62.0

10 3.0 3.3 73.0

11 2.0 1.7 105.0

【問題 4-2】

上記データ表における各変数1x ,

2x , y 間の分散共分散行列,相関行列R ,偏相関行

列Rpを求め,経過年 0.41 x (年),走行距離 0.32 x (万 Km)のとき価格Y (万円)

はいくらと予測できるか求めよ.

Page 31: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-23-

第5章 主成分分析

5.1 主成分分析とは

主成分分析とは,相関関係の認められる p 個の変数の値を,少数個の合成変数(主成分)

で表すデータ処理法である.例えば,高校での諸科目の得点は,受験生が理系指向か文系指

向かを決める有効な1つの合成変数であり,また,アパレル商品の着心地感は夏型か冬型か

を決めるマーケティング活動における販売戦略の有効な合成変数でもある.このように主

成分分析は,多くの変数で表せるサンプルまたは個体を,次元数を集約し現象を要約する有

効なデータ処理法である.

今,図 5.1 に示す 2 個の変数21, xx が身

長と体重であるとき,2 つの変数間に強い

相関関係が認められていると仮定する.こ

こで,A君は身長が1Ax ,体重が

2Ax であり

身長,体重ともに大きく,B君は身長が

1Bx ,体重が2Bx であり身長,体重ともに小

さいことがわかる.すなわち,両君の特徴

は,変数21, xx の 2 変数の値で特徴づけら

れる.

そこで,2 変数21, xx の相関が強いとき,

図 5.1 に示すY 軸が変数21, xx の合成変数

として確立できるならば,A君はAY ,B君 図 5.1 変数と主成分の関係

はBY の 1 つの値を知ることによって特徴づけることができる.すなわち,

21, xx の 2 変数

で表現した両君を,相関の強い方向へ軸変換を行った合成変数Y を抽出することにより 1

つの変数に集約できることになる.この合成変数Y 軸を主成分と呼び,身長,体重ともに大

きいA君は「大柄な人」,身長,体重ともに小さいB君は「小柄な人」であることがわかる.

よって,Y 軸の値は「大柄な人であるか,小柄な人であるか」を表す主成分となる.このよ

うに主成分分析では,各得られた主成分の意味づけも重要なポイントである.

一般に,主成分分析は,p 次元で表せるサンプルや個体を,数個のより少ない合成変数で

ある主成分を抽出し意味づけしてサンプルや個体を特徴づけることである.変数 p 個を持

つ p 次元のサンプルや個体を表す主成分分析のデータの形式を表 5.1 に示す.

5.2 主成分の導出

主成分分析用のデータ表 5.1 に示された値は,同一のサンプルまたは個体について相関関

係があり,それぞれ p 変数相互に関連のある変動を表していると考えられることから,

表 5.1 主成分分析用多変量データ表

サンプル No. 説明変数

1x 2x px

1 11x 12x px1

2 21x 22x px2

n 1nx 2nx npx

これを説明する関数として p 個の変数の 1 次結合として,

pp xaxaxaY 2211 (5.1)

Page 32: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-24-

を仮定し, 11

2

p

i

ia の条件下で式(5.1)のY の分散が最大となる関数を求めることになる.

このときの関数を,

pp xaxaxaY 12121111

と表し,1Y を第 1 主成分という.次に

1Y と無相関なY の中で 11

2

p

i

ia の条件を満足する最

大の分散をもつ関数を求める.この関数を,

pp xaxaxaY 22221212

と表し,2Y を第 2 主成分という.以下同様にして mY まで求め,全変動の大部分が説明され

ていれば求めることを終了する.このようにして求めた主成分 mYYY ,,, 21 は,各々無相関

で直交し1Y が分散最大となる.

5.2.1 変数が2個の場合の主成分の導出

主成分分析のためのデータが 2 変数21, xx ,サンプル数nであるとき第1主成分は,

21 211 11 xaxaY

で表される.ここで,

12

11

1a

aa ,

2

1

x

xX

とすれば,式(5.4)は,

XaYt

11 ただし, 1aa 1

1

t

となる.また,第 1 主成分1Y の分散は,

1

11

1

11 aaaXaXaY ttt V a rV a rV a r

となる.この分散を 1aa 1

1

tの条件下で最大にするためには,ラグランジュの未定乗数

を用いて,

11

11

1 aaaa tt

を最大にすることになる.すなわち,

0aaa

11

1

22

, 0aI 1

となる.ここで,式(5.8)の係数1a が 0 以外の解をもつためには行列式,

0I

が成立しなければならない.式(5.9)の方程式は,行列の固有方程式と呼ばれ,この方程式

を満たすは固有値と呼ばれる.行列は,サンプル数nからのデータ偏差行列を,

2211

222121

212111

xxxx

xxxx

xxxx

nn

xx

とすれば,偏差平方和および分散共分散行列は,

xxxxS t

2

22

2

21

2

12

2

11

1

1

S

n

と求められる.

同様に,第 2 主成分は,

(5.2)

(5.3)

(5.4)

(5.5)

(5.6)

(5.7)

(5.8)

(5.9)

(5.10)

(5.11)

Page 33: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-25-

22 212 12 xaxaY

とし,

22

21

2a

aa ,

2

1

x

xX

とすれば,式(5.12)は,

XaY t

22 ただし, 1aa 2

2

t

となる.ここで第 2 主成分は式(5.4)で求めた第 1 主成分と無相関で分散が最大となるよう

求めることになるから1Y と

2Y の共分散は 0 でなければならない.よって,

0 ,,, 21212121 aaaXXaXaXaYY tttt C o vC o vC o v

となる.したがって,

02

1 aat

が成り立つ.式(5.15)は,第 1 主成分の係数ベクトル1a と第 2 主成分の係数ベクトル

2a は

直交していることを表している.したがって,第 1 主成分と同様に求めると,

0aI 2

となり,係数2a が 0 以外の解を満足するには式(5.9)を得る.

5.2.2 変数がp個の場合の主成分の導出

一般に p 変数 pxxx ,,, 21 ,サンプル数nであるとき第1主成分は,

pp xaxaxaY 12121111 , ただし 1aa 1

1

t

で表され式(5.9)の行列の固有方程式を解くことにより係数ベクトル1a は求められる.以

下,順次第 1 主成分と無相関な第 2 主成分,第 2 主成分と無相関な第 3 主成分,第 3 主成

分と無相関な第 4 主成分と求めていくことになる.

今,式(5.9)で求められた解が p 21 であるとき,式(5.8)より

11 aa , 1111 aaaa tt

となり,

11

11 aaY tV a r

となる.したがって,第 1 主成分1Y の分散が最大となるのは,式(5.8)における固有方程式

の固有値が最大をとるときであり,係数ベクトル1a はそのときの固有ベクトルである.

第 2 主成分は式(5.16)より,

22 aa , 2222 aaaa tt

となり,第 2 番目の固有値が,

22

22 aaY tV a r

となる.すなわち,第 2 主成分2Y が第 1 主成分

1Y と無相関で分散が最大となるのは,固有

方程式の第 2 番目の固有値のときであり,係数ベクトル2a はそのときの固有ベクトルとな

る.以下,第 3 主成分 3Y は,第 3 番目に大きい固有値に対する固有ベクトルが 3a に対応し,

第 4 主成分4Y は,第 4 番目に大きい固有値に対する固有ベクトルが

4a に対応していくこと

になる.

5.2.3 寄与率

各主成分として式(5.17)で求められた合成変数は,それぞれ全変動に対してどの程度の割

合で説明しているかを考える.一般に p 個の変数から求められる主成分数は p 個である.

また,それぞれの主成分は固有方程式を解くことにより分散は,式(5.19)(5.21)より固有値

(5.12)

(5.13)

(5.14)

(5.15)

(5.16)

(5.17)

(5.19)

(5.18)

(5.21)

(5.20)

Page 34: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-26-

に等しくなる関係から,第m主成分が説明している割合は,

tr

c mm

, ただし

p

i

ii

p

i

itr1

2

1

となる.この値 mc を第m主成分の寄与率と呼び,

k

i

kkr ccP1

を第 k 主成分までの累積寄与率と呼ぶ.主成分分析は,p 次元で表されているサンプルや個

体を,累積寄与率を考慮しより少ない合成変数である主成分を抽出し,それぞれ各主成分に

意味づけしてサンプルや個体を特徴づけることである.

5.2.4 因子負荷量

求められた各主成分 mY と各変数 pxxx ,,, 21 との相関係数を各主成分 mY の因子負荷量

と呼び,主成分 mY ともとの変数 pxxx ,,, 21 がどのくらい強く係わり合っているかを見る

ことができる.各主成分の係数ベクトルや因子負荷量を検討することにより主成分の意味

付けに用いる.

主成分 mY と変数 jx の相関係数を mjr と表すと,

2

,

jj

mjm

jm

jm

mj

a

xVarYVar

xYCovr

で求められる.

5.2.5 主成分得点

求められた各主成分 mY に表 5.1 として得られた各変数 pxxx ,,, 21 のデータを代入し計

算された値を主成分得点と呼び,2 次元の散布図としてサンプルおよび個体を布置すること

により特徴を見出すことができる.例えば,k 番目までの主成分得点を計算するとすれば,

第 i サンプルの第m主成分の得点は,

p

j

ijmjipmpimimmi xaxaxaxaY1

2211 km ,,2,1

と求められる.

5.3 標準化したデータを用いる主成分分析

収集した変数 pxxx ,,, 21 のデータについて,例えば,単純に1x と

2x の値の大小関係を

比較することができない場合がある.なぜなら,得られた pxxx ,,, 21 のデータは測定単位

が常に同一とは限らないことである.この場合には,得られたデータを次式

xxu i

i

で標準化して主成分を抽出する.式(5.26)で標準化されたu値は常に平均 0,分散 1 に従う

ことがわかっている.標準化された多変量データ表を表 5.2 に示す.

(5.22)

(5.23)

(5.24)

(5.25)

(5.26)

Page 35: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-27-

表 5.2 標準化した主成分分析用多変量データ表

サンプル No.

説明変数 標準化した変数

1x 2x px

1u 2u pu

1

1

xx

2

2

xx

p

p xx

1 11x 12x px1

11u 12u pu1

2 21x 22x px2

21u 22u pu2

n 1nx 2nx npx 1nu 2nu npu

平均値 x 1x 2x px 0 0 0

標準偏差 1 2 p 1 1 1

5.3.1 主成分の導出

標準化した変数 puuu ,,, 21 を用いたときの第1主成分を,

ppuauauaY 12121111 , ただし 1aa 1

1

t

とし,それぞれのベクトル表示を,

pa

a

a

1

12

11

1 a ,

pu

u

u

2

1

U

とすれば,式(5.27)は,

UaYt

11 ただし, 1aa 1

1

t

となる.また,第 1 主成分1Y の分散は,

1

11

1

11 aaaUaUaY ttt V a rV a rV a r

となり,この分散を 1aa 1

1

tの条件下で最大にするために,ラグランジュの未定乗数を

用いて,整理すると,

0aI 1

となる.ここで,式(5.30)の係数1a が 0 以外の解をもつためには行列式,

0I

を満足しなければならない.すなわち,式(5.31)は行列の固有値問題に帰着する.ここで

行列は標準化された変数を用いて,サンプル数nからのデータ偏差行列を,

npnn

p

p

uuu

uuu

uuu

21

22221

11211

u

とすれば,偏差平方和は,

uuSt

と求められ,分散共分散行列は 1nS と計算して相関行列となる.よって相関行列は,

(5.27)

(5.28)

(5.29)

(5.30)

(5.31)

(5.32)

(5.33)

Page 36: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-28-

pppp

p

p

rrr

rrr

rrr

n

21

22221

11211

1

1SR

ただし,

ji

ijn

k j

jkj

i

ikin

k

kjkij

t

iij

xxxx

nuu

nnr

2

11 1

1

1

1

1

1

uu

となる.したがって,式(5.31)の固有値問題は,

0IR

となり,標準化された変数を用いた主成分分析は,多変量データから相関行列R を求めて

解く固有値問題となることがわかる.なお,第 2 主成分以下の各主成分は固有値,固有ベク

トルに対応する.

5.3.2 寄与率

各主成分として式(5.27)で求められた合成変数の寄与率は,p 個の変数から求められる主

成分数は p 個であるから,第m主成分が説明している割合は,

Rtr

c m

m

, ただし ptr

p

i

i 1

R

となり,第 k 主成分までの累積寄与率は,

k

i

kkr ccP1

となる.

5.3.3 因子負荷量

因子負荷量は,求められた各主成分 mY と各変数 puuu ,,, 21 との相関係数で表され,主

成分 mY と変数 ju の相関係数を mjr と表すと,

mjm

jm

jm

mj auVarYVar

uYCovr

,

で求められる.

5.3.4 主成分得点

求められた各主成分 mY に表 5.2 として得られた各変数 pxxx ,,, 21 の標準化した変数

puuu ,,, 21 を代入し計算された値を主成分得点と呼び,2 次元の散布図としてサンプルお

よび個体を布置することにより特徴を見出すことができる.例えば,k 番目までの主成分得

点を計算するとすれば,第 i サンプルの第m主成分の得点は,

p

j

ijmjipmpimimmi uauauauaY1

2211 km ,,2,1

と求められる.

(5.34)

(5.35)

(5.36)

(5.37)

(5.38)

(5.39)

(5.40)

Page 37: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-29-

5.4 ラグランジュの未定乗数法

関数 pxxxfy ,,, 21 について,条件 0,,, 21 pxxxh のもとで,関数 y の最大ま

たは最小を求めるためには,次の関数,

pp xxxhxxxfz ,,,,,, 2121

を考える.ここで,z を最大または最小にすることは,関数 y を条件 0,,, 21 pxxxh の

もとで最大または最小にすることと同じであることが知られている.したがって,

0,,,

0

21

21

p

p

xxxh

x

z

x

z

x

z

を解いて pxxx ,,, 21 を求めると,この pxxx ,,, 21 に対応する y の値は最大または最小と

なる.この解法をラグランジュの未定乗数法と呼んでいる.

また,条件が, 0,,, 211 pxxxh , 0,,, 212 pxxxh と 2 個ある場合,

ppp xxxhxxxhxxxfz ,,,,,,,,, 2122211121

の関数を考えて式(5.41)を解けば, pxxx ,,, 21 に対応する y の値は最大または最小とする

ことができる.

5.5 固有方程式

p 行 p 列からなる正方行列A があるとき,

bAb

の係数ベクトルbと定数を求める問題を固有値問題と呼び,係数ベクトルbを固有ベク

トル,定数は固有値と呼ばれる.したがって,式(5.44)は,

0bIA

となり,係数ベクトルbおよび定数について方程式を解けばよい.式(5.45)で係数ベクト

ルが 0b では意味がなく, 0b の解を求めるためには,

0 IA

でなければならない.この方程式を固有方程式と呼び,固有値に対する固有ベクトルbを

求めることになる.固有値と固有ベクトルの計算法には,ヤコビ法,ベキ乗法等があり,ヤ

コビ法については,第 5 章 Excel 演習問題 WorkSheet に Excel 用 VBA で作成したプログ

ラムを示した.固有値,固有ベクトルの計算には,プログラムを利用すればよい.

5.6 固有値,固有ベクトルを求めるプログラム使用手順

固有方程式を解くためには,プログラムを利用した方が便利である.第 5 章 Excel 演習

問題 WorkSheet に作成したプログラムの操作方法について解説する.

例えば,固有値,固有ベクトルを求める行列を,

94.1950.1059.6 63.8

50.1056.2371.1997.7

59.6 71.1995.2093.3

63.8 97.7 93.3 55.7

A

とする.

(5.41)

(5.42)

(5.43)

(5.44)

(5.45)

(5.46)

Page 38: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-30-

手順1 「全消去」ボタンをクリックしデータの内容を消去する.

手順2 固有値,固有ベクトルを求める行列A の行数を入力し,「行列表示」ボタンをクリ

ックすると,行列の値を入力する領域が「0.000」で表示される.ただし,求める行

列は正方行列とする.

手順3 行列A の値を入力する領域にデータを入力する.

手順4 データ入力後「Jacobi 法」ボタンをクリックすると,行列A の固有値,固有ベク

トルが求められる.

手順5 得られた固有値,固有ベクトルの値を複写し累積寄与率,主成分得点等の計算に

用いる.

Page 39: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-31-

第5章 Excel演習問題

【問題 5-1】

ある高校の進学クラスの生徒 20 人をランダムに選び,模擬試験 5 科目の結果として次表

を得た.結果を分析し生徒の特徴等を見出し進路指導に役立てたい.

表 5-1.1 データ表

生徒

No.

国語 社会 数学 理科 英語

1x 2x 3x

4x 5x

1 35 32 68 78 72

2 70 67 71 63 85

3 73 90 78 75 88

4 51 55 57 59 73

5 76 91 95 87 86

6 59 84 65 65 76

7 80 90 72 62 83

8 60 83 71 77 80

9 69 74 80 66 84

10 52 69 72 60 80

11 68 63 95 56 85

12 86 88 89 84 88

13 82 74 95 80 86

14 75 60 66 56 74

15 86 81 77 81 85

16 76 79 77 69 82

17 37 42 44 32 84

18 66 72 77 66 83

19 82 76 79 66 88

20 46 60 55 20 83

(1)データについて主成分分析を行い第1主成分および第2主成分を抽出し,意

味付けを行なえ.ただし,分散共分散行列より固有値,固有ベクトルを求めよ.

(2)主成分得点を計算し散布図を描け.

Page 40: Excel で学ぶ 多変量データ処理入門 · 多変量データ処理入門 坂 元 保 秀 . ま え が き 本テキストは,種々の分野で収集された多変量データをMicrosoft

-32-

【問題 5-2】

アイドル女優の特徴を分析するために女性週刊誌に掲載されたアイドル女優 30人の身体

計測値を入手し次表にまとめた.

表 5-2.1 データ表

女優

No.

身長 体重 バスト ウェスト ヒップ

1x 2x 3x

4x 5x

1 162 46 80 57 86

2 168 55 88 61 91

3 163 50 80 60 90

4 158 48 82 60 85

5 158 45 85 58 85

6 166 51 86 59 91

7 158 45 87 57 88

8 154 44 84 58 88

9 158 48 83 58 88

10 174 52 82 60 86

11 159 46 85 56 86

12 155 47 82 60 86

13 158 41 80 57 84

14 157 42 78 59 82

15 165 51 88 60 90

16 157 40 78 56 78

17 156 41 81 59 83

18 157 41 75 57 81

19 167 47 83 59 88

20 165 54 88 63 90

21 161 42 82 58 84

22 161 44 76 57 83

23 157 42 83 56 83

24 162 47 83 58 84

25 163 42 83 57 83

26 160 46 78 58 83

27 158 43 79 53 83

28 158 48 82 62 85

29 154 44 82 62 84

30 157 48 86 60 88

(1)データについて主成分分析を行い各主成分を抽出し,意味付けを行なえ.

ただし,相関行列より固有値,固有ベクトルを求めよ.

(2)主成分得点を計算し散布図を描け.