10
15 主成分分析 139 15 主成分分析 ある問題に対していくつかの要因が考えられるときそれらの要因を一つ一つ独立に扱うのではなく,総合的 に取り扱うのが主成分分析と呼ばれる手法である.つまり,いくつかの説明変量 x, x, ・・・・x,の総合的特性 を,ax+ax+・・・・+ax,のような一次式で表現しようというわけである.この式によって表されるものを 主成分という.主成分には,いくつかあり第 1 主成分,第 2 主成分・・・・と順に呼ばれる.この総合的特性 という意味がどうもぴんとこない人は,総合的な成績,または総合的な順位と思ってもよい.吟味する値は数 値であれば単位の制約はない. 主成分分析の応用例(有馬,石村(1992) 最近何となく食欲がない.疲れやすい.右の肋骨のしたあたりが重いような気がする.そこでしぶしぶ病院 に出かけてゆくと,血液や尿による肝機能検査を受けることになる.数日がたって,医師からあなたの GOTGPT は,119 と,194 なので,これは立派な慢性肝炎ですと診断される.あわてて肝臓病の治療法のような本 をたくさん買い込んで,素人勉強する.たいていその種の本には,肝機能検査で血清酵素のトランスアミナー GOTGPT の値が高くなると危険であるなどと書いてあるものだから,次第に GOTGPT ノイローゼになっ てゆく. 病気の重症度を測る場合,一種類の検査だけで十分だろうか,実際,肝機能検査においては,GOTGPT の他 に,アルブミン,総コレステロール,ZTT, TTT, ChE, ICG のように,素人には何のことか分からない検査項目 がずらりと並んでいる.専門医はそれぞれの項目をひとつひとつ検討しながら病態の重症度を判断してゆくこ とになっている. 総合判断ということであれば,症状の総合的指標のようなものを作り,その値から重症の度合いを測定でき ないものだろうか.これらの検査項目を説明変量として主成分分析を用いると,第 1 主成分に重症度としての 総合的特性値があらわれることがある. 1. 主成分分析(慶應 SFC データ分析教育グループ,1999主成分分析とは;体重が大きいと身長が高い=正の相関があることは分かる.1 は,身長・体重ともにそ れぞれが独自のばらつきを持っていることを示している.しかし,体重と身長の 2 つの変量が持っている「人 間の体つき」に関する情報が重なり合っている.肥満型・やせ型などは読みとれにくい.これらの誤差と見え る現象・情報を読みとりたい.それならば,ばらつきを身長方向や体重方向で考えるのではなく,2 に示し た,A-B C-D の方向で考えることにしたらどうであろうか.A-B 方向は,下図の散布図でプロットされた点 が形作る楕円の最も長い方向を記しており,ここに投影するとき,各点のばらつきは最も大きくなる.この方 向の意味を考えると,A の向きは身長・体重がともに大きいことを,B の向きは身長・体重がともに小さいこ とを表している.すなわち A-B 方向は,いわば「体格」を示す方向であるといえる.一方 A-B 方向で表せない 情報は,それと直交する C-D 方向が示す情報である.これは,C の向きにいくほど,身長が高い割に体重が軽 いというやせ形であることを,逆に D の向きは体重が重い割には身長が小さいという肥満型であることを示し ている.つまり,C-D は「体型」を示す方向であるといえる. 50 55 60 65 Height 60 70 80 90 100 110 120 130 140 150 Weight 体重のばらつき 50 55 60 65 Heigh 60 70 80 90 100 110 120 130 140 150 Weight D B A C 体格のばらつき 体型のばらつき 1. 「身長」と「体重」の散布図 2. 主成分によるばらつき この図内の点のばらつきについての情報を表現するためには,「身長」と「体重」で考えても「体格」と「体 型」で考えても,同じ散布図が再現できるという点で情報量は同じといえる.それならは,部分的に情報が重 なって相関のある「身長」と「体重」よりも,ばらつきの情報をうまく分けて考えられる「体格」と「体型」 の方が,データに含まれる情報を解釈するときにたくさんのことがわかりやすく表現される.また,ばらつき の最大方向である「体格」には,人間の体つきについて多くの情報が集約されていると考えられ,効率的であ る. ここで見た「体格」と「体型」のように,多種のデータによってできた散布図の空間の中で,データのばら つきが最大の方向(軸)を見つけ,それと直交しながら,ばらつきがその次に大きい方向を順次見つけてゆく

第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

  • Upload
    lamhanh

  • View
    224

  • Download
    4

Embed Size (px)

Citation preview

Page 1: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

139

第 15 章 主成分分析 ある問題に対していくつかの要因が考えられるときそれらの要因を一つ一つ独立に扱うのではなく,総合的

に取り扱うのが主成分分析と呼ばれる手法である.つまり,いくつかの説明変量 x1, x2 , ・・・・xp,の総合的特性

を,a1x1+a2x2+・・・・+apxp,のような一次式で表現しようというわけである.この式によって表されるものを

主成分という.主成分には,いくつかあり第 1 主成分,第 2 主成分・・・・と順に呼ばれる.この総合的特性

という意味がどうもぴんとこない人は,総合的な成績,または総合的な順位と思ってもよい.吟味する値は数

値であれば単位の制約はない. 主成分分析の応用例(有馬,石村(1992) 最近何となく食欲がない.疲れやすい.右の肋骨のしたあたりが重いような気がする.そこでしぶしぶ病院

に出かけてゆくと,血液や尿による肝機能検査を受けることになる.数日がたって,医師からあなたの GOT・GPT は,119 と,194 なので,これは立派な慢性肝炎ですと診断される.あわてて”肝臓病の治療法”のような本

をたくさん買い込んで,素人勉強する.たいていその種の本には,肝機能検査で血清酵素のトランスアミナー

ゼ GOT・GPT の値が高くなると危険であるなどと書いてあるものだから,次第に GOT・GPT ノイローゼになっ

てゆく. 病気の重症度を測る場合,一種類の検査だけで十分だろうか,実際,肝機能検査においては,GOT・GPT の他

に,アルブミン,総コレステロール,ZTT, TTT, ChE, ICG のように,素人には何のことか分からない検査項目

がずらりと並んでいる.専門医はそれぞれの項目をひとつひとつ検討しながら病態の重症度を判断してゆくこ

とになっている. 総合判断ということであれば,症状の総合的指標のようなものを作り,その値から重症の度合いを測定でき

ないものだろうか.これらの検査項目を説明変量として主成分分析を用いると,第 1 主成分に重症度としての

総合的特性値があらわれることがある. 1. 主成分分析(慶應 SFC データ分析教育グループ,1999) 主成分分析とは;体重が大きいと身長が高い=正の相関があることは分かる.図 1 は,身長・体重ともにそ

れぞれが独自のばらつきを持っていることを示している.しかし,体重と身長の 2 つの変量が持っている「人

間の体つき」に関する情報が重なり合っている.肥満型・やせ型などは読みとれにくい.これらの誤差と見え

る現象・情報を読みとりたい.それならば,ばらつきを身長方向や体重方向で考えるのではなく,図 2 に示し

た,A-B と C-D の方向で考えることにしたらどうであろうか.A-B 方向は,下図の散布図でプロットされた点

が形作る楕円の最も長い方向を記しており,ここに投影するとき,各点のばらつきは最も大きくなる.この方

向の意味を考えると,A の向きは身長・体重がともに大きいことを,B の向きは身長・体重がともに小さいこ

とを表している.すなわち A-B 方向は,いわば「体格」を示す方向であるといえる.一方 A-B 方向で表せない

情報は,それと直交する C-D 方向が示す情報である.これは,C の向きにいくほど,身長が高い割に体重が軽

いというやせ形であることを,逆に D の向きは体重が重い割には身長が小さいという肥満型であることを示し

ている.つまり,C-D は「体型」を示す方向であるといえる.

50

55

60

65

Height

60 70 80 90 100 110 120 130 140 150

Weight

体重のばらつき

50

55

60

65

Heigh

60 70 80 90 100 110 120 130 140 150

Weight

DB

AC

体格のばらつき体型のばらつき

図 1. 「身長」と「体重」の散布図 図 2. 主成分によるばらつき

この図内の点のばらつきについての情報を表現するためには,「身長」と「体重」で考えても「体格」と「体

型」で考えても,同じ散布図が再現できるという点で情報量は同じといえる.それならは,部分的に情報が重

なって相関のある「身長」と「体重」よりも,ばらつきの情報をうまく分けて考えられる「体格」と「体型」

の方が,データに含まれる情報を解釈するときにたくさんのことがわかりやすく表現される.また,ばらつき

の最大方向である「体格」には,人間の体つきについて多くの情報が集約されていると考えられ,効率的であ

る. ここで見た「体格」と「体型」のように,多種のデータによってできた散布図の空間の中で,データのばら

つきが最大の方向(軸)を見つけ,それと直交しながら,ばらつきがその次に大きい方向を順次見つけてゆく

Page 2: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

140

ことによって,データの持つ情報を効率的に記述し,理解することができる.このような新しい軸を見つける

ことが主成分分析である. 分析の結果として見いだされたそれぞれの軸のことを主成分と呼ぶ.抽出された主成分は,ばらつきが最大

の方向を示す主成分から順に,第 1 主成分,第 2 主成分・・・と呼ばれる. 2. 主成分分析の実行 1) 米国 50 州の犯罪データから主成分を検索する SAS JMP に保有されている表 1 のサンプルデータの(犯罪)を開く.表 1 のデータが入っている.

表 1. 米国 50 州の犯罪データ

州名 殺人 婦女

暴行 強盗 暴行 住居侵入

強盗 窃盗 自動車

窃盗 ALABAMA 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7

ALASKA 10.8 51.6 96.8 284 1331.7 3369.8 753.3 ARIZONA 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5

ARKANSAS 8.8 27.6 83.2 203.4 972.6 1862.1 183.4 CALIFORNIA 11.5 49.4 287 358 2139.4 3499.8 663.5 COLORADO 6.3 42 170.7 292.9 1935.2 3903.2 477.1

CONNECTICUT 4.2 16.8 129.5 131.8 1346 2620.7 593.2 DELAWARE 6 24.9 157 194.2 1682.6 3678.4 467

FLORIDA 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4 GEORGIA 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9 HAWAII 7.2 25.5 128 64.1 1911.5 3920.4 489.4 IDAHO 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6

ILLINOIS 9.9 21.8 211.3 209 1085 2828.5 528.6 INDIANA 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4

IOWA 2.3 10.6 41.2 89.8 812.5 2685.1 219.9 KANSAS 6.6 22 100.7 180.5 1270.4 2739.3 244.3

KENTUCKY 10.1 19.1 81.1 123.3 872.2 1662.1 245.4 LOUISIANA 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7

MAINE 2.4 13.5 38.7 170 1253.1 2350.7 246.9 MARYLAND 8 34.8 292.1 358.9 1400 3177.7 428.5

MASSACHUSETT 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1 MICHIGAN 9.3 38.9 261.9 274.6 1522.7 3159 5 45.5

MINNESOTA 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1 MISSISSIPPI 14.3 19.6 65.7 189.1 915.6 1239.9 144.4 MISSOURI 9.6 28.3 189 233.5 1318.3 2424.2 378.4 MONTANA 5.4 16.7 39.2 156.8 804.9 2773.2 309.2 NEBRASKA 3.9 18.1 64.7 112.7 760 2316.1 249.1

NEVADA 15.8 49.1 323.1 355 2453.1 4212.6 559.2 NEWHAMPSHIRE 3.2 10.7 23.2 76 1041.7 2343.9 293.4

NEWJERSEY 5.6 21 180.4 185.1 1435.8 2774.5 511.5 NEWMEXICO 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5

NEWYORK 10.7 29.4 472.6 319.1 1728 2782 745.8 NORTHCAROLINA 10.6 17 61.3 318.3 1154.1 2037.8 192.1 NORTHDAKOTA 0.9 9 13.3 43.8 446.1 1843 144.7

OHIO 7.8 27.3 190.5 181.1 1216 2696.8 400.4 OKLAHOMA 8.6 29.2 73.8 205 1288.2 2228.1 326.8

OREGON 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9 PENNSYLVANIA 5.6 19 130.3 128 877.5 1624.1 333.2 RHODEISLAND 3.6 10.5 86.5 201 1489.5 2844.1 791.4

SOUTHCAROLINA 11.9 33 105.9 485.3 1613.6 2342.4 245.1 SOUTHDAKOTA 2 13.5 17.9 155.7 570.5 1704.4 147.5

TENNESSEE 10.1 29.7 145.8 203.9 1259.7 1776.5 314 TEXAS 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6 UTAH 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5

VERMONT 1.4 15.9 30.8 101.2 1348.2 2201 265.2 VIRGINIA 9 23.3 92.1 165.7 986.2 2521.2 226.7

Page 3: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

141

WASHINGTON 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3 WESTVIRGINIA 6 13.2 42.2 90.9 597.4 1341.7 163.3

WISCONSIN 2.8 12.9 52.2 63.7 846.9 2614.2 220.7 WYOMING 5.4 21.9 39.7 173.9 811.6 2772.2 282

“グラフ”のメニューから回線プロットへ,殺人・婦女暴行・強盗・暴行・住居侵入強盗・窃盗・自動車窃

盗の 7 項目を Y 列へ→回転プロット▼をクリックし主成分分析を選ぶ. 3 次元図がでる.チェックをクリック.Principal component を表示してクリックする. Eigenvalue(固有値):データの全情報量(データの全てのばらつき)のうち,それぞれの主成分がどのくら

いの分量の情報を表現しているかを示す.第 1 主成分が最も大きな値をとる.以下だんだん小さくなる.合計

値は 7(説明変量の数).

Percent(寄与率):各種成分がそれぞれ受け持って表現している情報量を比率化したもの. Cum Percent(累積寄与率):寄与率の第 1 主成分からの累積値. Eigenvectors(固有ベクトル):その主成分が何かを表しているかを解釈するときの手がかりであり,新しい

方向である主成分と,もとの変量(説明変量)との相関係数である. 主成分の解釈 SAS JMP による主成分分析の結果を表 2 に示した. 第 1 主成分:全ての犯罪について正の値をとっていることからから考えて,全体的な犯罪の起こり安さを表

す主成分と思われる.したがって,この第 1 主成分は新たに(新しい軸)凶悪犯罪水準と命名する. 第 2 主成分:“殺人”,”婦女暴行”といった凶悪犯罪が負の値の負荷を,”自動車窃盗”という金目当ての犯罪が

正の負荷をとっているところから,各州で凶悪犯罪と金目当ての犯罪のどちらが特徴的に多いのか,どちらに

片寄っているのかを表している主成分だと解釈できる.したがって,この第 2 主成分は新たに(新しい軸)衝

動的犯罪または地域差のある犯罪水準と命名する. 第 3 主成分:固有値や寄与率から判断すると,第 3 主成分は担っている情報量が小さい.累積寄与率から見

ても第 2 主成分までで,全情報の 9 割近くを表現していることから,第 3 主成分は考察しないことにする.

表 2. 主成分分析の結果 第 1 主成分 第 2 主成分 第 3 主成分 第 4 主成分 第 5 主成分 第 6 主成分 第 7 主成分

固有値 4.1150 1.2387 0.7258 0.3164 0.2580 0.2220 0.1241 寄与率 58.7851 17.6960 10.3688 4.5205 3.6853 3.1720 1.7722

累積寄与率 58.7851 76.4812 86.8500 91.3704 95.0558 98.2278 100.0000 固有ベクトル

殺人 0.30028 -0.62917 0.17825 -0.23211 0.53812 0.25912 0.26759 強姦 0.43176 -0.16944 -0.24420 0.06222 0.18847 -0.77327 -0.29649 強盗 0.39688 0.04225 0.49586 -0.55799 -0.51998 -0.11438 -0.00390 暴行 0.39665 -0.34353 -0.06951 0.62980 -0.50665 0.17236 0.19174 夜盗 0.44016 0.20334 -0.20990 -0.05755 0.10103 0.53599 -0.64812 窃盗 0.35736 0.40232 -0.53923 -0.23489 0.03010 0.03941 0.60169

車の窃盗 0.29518 0.50242 0.56838 0.41924 0.36975 -0.05730 0.14705 2) 厚生労働省の調査による老人福祉介護関係の都道府県別データ(表 3)から主成分を検索する 計算は,手計算では不可能であることから SAS JMP によって実施する.平成 7~13 年度における厚生労働省

調査による都道府県別に見た老人介護に関する緒データ①~⑬を下記に示した.検討用データは,同一年度に

属していないことをお断りする. ①65 歳以上の総数 ⑧訪問介護ステーションの利用者総数 ②単独世帯数 ⑨同一老人保健福祉県内の入所者率(%) ③核家族世帯数 ⑩介護福祉士合格者数 ④夫婦のみの世帯数 ⑪介護支援専門員実務研修受講合格者数 ⑤三世代数 ⑫男性所定内給与額(千円) ⑥介護保健施設定員(病床数) ⑬女性所定内給与額(千円) ⑦平均要介護度

Page 4: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

142

表 3. 老人医療に関わると思われる種々の数値

県名 ① ② ③ ④ ⑤ ⑥ 北海道 6332117 153 330 256 26 39936 青森 177421 30 60 35 10 10129 岩手 194776 22 61 39 7 10059 宮城 259202 32 83 53 12 9828 秋田 187576 23 54 36 7 9960 山形 194850 22 47 27 8 8103 福島 285021 36 82 50 14 9902 茨城 320936 40 118 73 18 12925 栃木 228164 24 67 42 10 8919 群馬 241754 25 88 53 14 10161 埼玉 508508 82 257 149 38 20392 千葉 501869 67 230 147 35 20636 東京 1145822 396 701 426 107 39292

神奈川 686089 121 398 256 44 24150 新潟 354824 36 110 68 17 17621 富山 154620 15 46 31 4 9019 石川 146677 20 47 33 4 8437 福井 114351 15 30 20 3 6793 山梨 119002 17 47 29 7 4559 長野 626900 43 117 73 16 12229 岐阜 248637 28 78 52 9 9780 静岡 474015 51 149 98 22 14846 愛知 603719 99 266 186 30 24846 三重 226232 40 79 57 7 10144 滋賀 138936 17 41 77 5 209 京都 295969 72 141 87 20 13458 大阪 763954 255 464 293 72 35219 兵庫 596623 121 236 159 30 26182 奈良 152705 28 56 40 6 6548

和歌山 133506 37 63 45 8 6956 鳥取 92617 14 28 19 4 4843 島根 130817 21 39 28 5 6249 岡山 257276 46 91 67 10 14006 広島 353869 81 157 118 16 17616 山口 226439 55 100 74 10 13615 徳島 117691 19 37 26 4 8681 香川 146370 22 50 76 5 7401 愛媛 216220 48 93 68 11 10613 高知 128508 34 58 40 7 8477 福岡 550095 129 235 160 36 33937 佐賀 119317 18 38 24 6 6990 長崎 208281 41 84 57 11 11383 熊本 263519 47 94 64 12 16446 大分 175385 36 63 47 7 9011 宮崎 155968 36 72 55 7 8587

鹿児島 272834 83 142 107 17 15280 沖縄 113845 27 84 26 10 9635

Page 5: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

143

表 3. 老人医療に関わると思われる種々の数値 (つづき)

県名 ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ 北海道 3.24 10344 99.7 1433 11506 299 210 青森 3.34 2624 99.5 318 2348 264 173 岩手 3.51 1634 98.6 334 2271 271 182 宮城 3.46 3500 96.3 460 3056 311 204 秋田 3.65 1686 99.3 355 1894 272 182 山形 3.39 2137 97.0 410 2157 263 181 福島 3.47 4504 98.7 408 3223 297 192 茨城 3.39 4100 95.9 461 3311 334 219 栃木 3.54 1930 96.7 305 2328 327 212 群馬 3.50 2663 97.3 366 3310 315 204 埼玉 3.41 7517 94.1 1119 6544 337 230 千葉 3.47 6158 96.0 871 5698 345 234 東京 3.47 20725 73.3 2080 15751 396 268

神奈川 3.54 13636 88.7 1359 9947 260 244 新潟 3.54 4569 99.4 965 4423 305 196 富山 3.40 1283 99.6 337 2005 310 203 石川 3.37 1419 99.6 375 2602 311 206 福井 3.35 1889 98.3 334 2246 313 203 山梨 3.49 1742 97.0 190 4644 326 217 長野 3.59 6831 98.3 462 4190 317 205 岐阜 5.56 2716 97.5 494 3258 311 204 静岡 3.49 4756 98.1 772 4963 326 212 愛知 3.46 8400 97.1 1107 9359 344 221 三重 3.44 2804 97.9 425 3005 326 211 滋賀 3.33 1980 95.4 251 1981 333 219 京都 3.36 5750 87.2 642 4836 342 329 大阪 3.31 14081 96.1 1352 13812 359 238 兵庫 3.34 9453 95.3 995 8757 348 224 奈良 3.33 2764 89.8 277 2134 343 222

和歌山 3.49 3061 96.3 275 2092 319 216 鳥取 3.44 1259 99.3 189 1460 281 192 島根 3.52 1916 96.2 223 1981 274 184 岡山 3.40 3862 98.4 449 4555 302 207 広島 3.42 5700 96.9 679 6586 323 218 山口 3.16 2562 97.2 483 3067 311 197 徳島 3.37 1630 99.4 173 2568 300 200 香川 3.37 1049 97.6 219 2141 313 205 愛媛 3.45 3450 98.4 350 3171 294 196 高知 3.30 1673 98.2 177 1992 287 202 福岡 3.26 8315 98.2 1222 9437 321 217 佐賀 3.27 1104 95.7 207 1962 286 195 長崎 3.40 2049 97.6 484 3060 283 196 熊本 3.33 3132 98.2 584 4911 287 192 大分 3.46 2285 97.5 466 3090 285 183 宮崎 3.43 1599 97.3 484 2415 277 179

鹿児島 3.47 3682 98.1 673 4150 280 191 沖縄 3.50 1648 100 268 2007 265 186

Eigenvalue(固有値):データの全情報量(データの全てのばらつき)のうち,それぞれの主成分がどのくら

いの分量の情報を表現しているかを示す.第 1 主成分が最も大きな値をとる.以下だんだん小さくなる.調査

項目が 13 なので合計値は 13.

Percent(寄与率):各種成分がそれぞれ受け持って表現している情報量を比率化したもの. Cum percent(累積寄与率):寄与率の第 1 主成分からの累積値.

Page 6: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

144

Eigenvectors(固有ベクトル):その主成分が何かを表しているかを解釈するときの手がかりであり,新しい

方向である主成分と,もとの変量(説明変量)との相関係数である.

表 4. 主成分分析の結果 第 1 主成分 第 2 主成分 第 3 主成分 第 4 主成分 第 5 主成分 第 6 主成分 第 7 主成分

固有値 10.0244 1.1576 0.9874 0.4650 0.1104 0.0738 0.0031 寄与率 77.1109 8.9042 7.5953 3.5767 0.8490 0.5678 0.0236

累積寄与率 77.1109 86.0151 93.6104 97.1871 98.0361 98.6039 100.0000 固有ベクトル

65 歳以上の総数 0.30154 0.03105 0.17839 0.13750 -0.16244 -0.71928 0.04542 単独世帯数 0.30089 0.09293 0.02938 -0.30045 0.48222 0.11829 0.06157

核家族世帯数 0.31223 0.03866 0.08256 -0.09348 0.11916 0.07297 0.82622 夫婦のみの世帯数 0.30953 0.08712 0.04662 -0.03174 0.06071 0.23049 -0.44292

三世代数 0.30458 -0.02683 0.08093 -0.18593 0.44051 -0.19382 -0.29879 介護保健施設定員(病床数) 0.28474 0.34487 0.09925 0.17780 -0.25149 0.20603 0.00669

平均要介護度 -0.02735 -0.57548 0.77924 0.12056 0.02202 0.17937 -0.00937 訪問介護ステーションの利

用者総数 0.31047 0.01279 0.09175 -0.01439 -0.03926 -0.24119 -0.14532

同一老人保健福祉県内の入

所者率(%) -0.22080 0.43901 0.23089 0.68074 0.40471 -0.02116 0.01567

介護福祉士合格者数 0.29957 0.15116 0.14522 0.05483 -0.53689 0.14634 -0.04927 介護支援専門員実務研修受

講合格者数 0.30342 0.17330 0.06439 0.13763 0.06323 0.26755 -0.02134

男性所定内給与額(千円) 0.24113 -0.39667 -0.35160 0.45435 0.07945 -0.19406 0.03840 女性所定内給与額(千円) 0.25604 -0.35688 -0.35232 0.32918 0.03894 0.32973 0.02669

主成分の解釈 第 3 主成分までの累積寄与率は 93.6%および第 3 主成分の固有値は約 1 で寄与率は 7.5%であることから主成

分の解釈は,第 3 主成分までで十分である(表 4). 第 1 主成分:平均要介護度(-0.027)および同一老人保健福祉県内の入所者率(%)(-0.220)は負の値をとっている

がその他の数全ての項目について正の値をとっていることからから以下のように考えられる.平均要介護度の

相関係数は極めて小さいことから無視できる.同一老人保健福祉県内の入所者率は負の状態で関与している.

その他の項目は,相関係数 0.24~0.31 と小さいながらも正の相関をとっている.今回調査した殆どの項目が関

与している主成分と思われる.したがって,この第 1 主成分(寄与率 77%)は新たに(新しい軸)“老人増加・

世帯構成・病床数”水準と命名する. 第 2 主成分:介護保健施設定員(病床数)および同一老人保健福祉県内の入所者率(%) が比較的大きい相関

係数を示している.所得には関係なく,住んでいる近くの施設を希望しているところから,この第 2 主成分(寄

与率 8.9%)は新たに“近くに入りたいという地域願望”水準と命名する. 第 3 主成分:平均要介護度の相関係数が 0.77 と第 3 主成分の中では正の値をとり大きな相関係数が認めてい

る.同一老人保健福祉県内の入所者率(%)の相関係数は次いで大きく 0.23 をとっている.したがって,この第 3主成分(寄与率 7.6%)は新たに“介護度”水準と命名する.

Page 7: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

145

3. 手計算による実行 主成分分析は,一般的にコンピュータを利用して解析する.この項では手計算でできるところまで挑戦して

みたい.分析資料は鈴木(1996)を用いた.表 4 は,第 2 回~11 回までの「ミスユニバース日本代表」10 人の身

長,体重,バスト,ウエストおよびヒップのデータである.

表 4. ミスユニバース日本代表の体刑 日本代表名および年代 身長 (cm) 体重 (kg) バスト(cm) ウエスト(cm) ヒップ(cm)

①第二回(1953) 165 53 86 56 92 ②第三回(1954) 160 47 84 52 92 ③第四回(1955) 166 55 86 64 89 ④第五回(1956) 164 56 90 60 95 ⑤第六回(1957) 168 55 87 56 87 ⑥第七回(1958) 164 54 87 57 92 ⑦第八回(1959) 168 54 94 58 97 ⑧第九回(1960) 169 55 88 57 92 ⑨第十回(1961) 169 53 86 58 93

⑩第十一回(1962) 166 56 84 57 90 平均値±標準偏差 165.9±2.81 53.8±2.62 87.2±2.97 57.5±3.06 91.9±2.85

これら 10 人の多くの情報の特徴を検索するためには,各測定値を標準化する. 標準化の計算は,各測定値から平均値を引いた値を標準偏差で割る.平均値より小さい値はマイナスで表示

される. 各測定値のヒストグラムを下記に示した. 身長(cm) 体重(kg) バスト(cm)

157.5

160

162.5

165

167.5

170

45

47.5

50

52.5

55

57.5

82.5

85

87.5

90

92.5

95

Mean±SD=165.9±2.81 Mean±SD=53.8±2.62 Mean±SD=87.2±2.97 CV(%)=16.9 CV(%)=4.86 CV(%)=3.41 ウエスト(cm) ヒップ(cm)

50

52.5

55

57.5

60

62.5

65

85

87.5

90

92.5

95

97.5

Mean±SD=57.5±3.06 Mean±SD=91.9±2.85 CV(%)=5.32 CV(%)=3.10

Page 8: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

146

ウエストおよびヒップは他のデータに比較して綺麗な釣り鐘状を示している.身長および体重は大きい値か

らなだらかに小さい値に傾斜している. 測定値の標準化

①の身長の計算= 32.081.2

9.165165-=

-

③の身長の計算= 04.081.2

9.165166=

-

上記の式によって順次算出する.測定値を標準化した値は表 5 に示した.

表 5. 表 4 のデータを標準化した値 日本代表名および年代 身長 体重 バスト ウエスト ヒップ

①第二回(1953) -0.32 -0.31 -0.40 -0.49 0.04 ②第三回(1954) -2.10 -2.60 -1.08 -1.80 0.04 ③第四回(1955) 0.04 0.46 -0.40 2.12 -1.02 ④第五回(1956) -0.68 0.84 0.94 0.82 1.09 ⑤第六回(1957) 0.79 0.46 -0.07 -0.49 -1.72 ⑥第七回(1958) -0.75 0.07 -0.07 -0.16 0.04 ⑦第八回(1959) 0.68 0.07 2.29 0.16 1.79 ⑧第九回(1960) 1.10 0.46 0.27 -0.16 0.04 ⑨第十回(1961) 1.10 -0.31 -0.40 0.16 0.39

⑩第十一回(1962) 0.04 0.84 -1.08 -0.16 -0.67 V および S スコアの計算 各代表者の体型についての特徴を検索するために V および S スコアを算出する.この個別ではなく総括的な

V および S 係数(表 6)はコンピュータで算出(後述)するしかない.

表 6. V および S 係数 係数 身長 体重 バスト ウエスト ヒップ

V 0.489 0.550 0.442 0.484 0.160 S -0.182 -0.291 0.530 -0.214 0.745

この 2 種類の係数 V および S と表 5 の標準化したデータの値に掛けて加えて表 7 のような 2 組のスコア算出

する. 第二回(1953)の V スコアの-0.78

77516.0)04.0()160.0()49.0()484.0()40.0()442.0()31.0()550.0()32.0()489.0(

-=´+-´+-´+-´+-´

①第二回(1953)の S スコアの 0.07

07332.0)04.0()745.0()49.0()214.0()40.0()530.0()31.0()291.0()32.0()182.0(

=´+-´-+-´+-´-+-´-

以下同様に計算する.計算結果は表 7 に示した.

表 7. 個体別特徴(V および S スコア) 開催回数および年代 V スコア S スコア ①第二回(1953) -0.78 0.07 ②第三回(1954) 伊藤絹子 -4.01 1.03 ③第四回(1955) 1.01 -1.65 ④第五回(1956) 1.18 1.07 ⑤第六回(1957) 0.08 -1.56 ⑥第七回(1958) -0.41 0.13 ⑦第八回(1959) 児島明子 1.88 2.48 ⑧第九回(1960) 0.88 -0.14 ⑨第十回(1961) 0.35 -0.08 ⑩第十一回(1962) -0.19 -1.35

Page 9: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

147

個体別考察:⑦の体型がどちらのスコアも群を抜いて高い.⑦は児島明子である.唯一ミスユニバースの栄

冠に輝いた人である.②の伊藤絹子の V スコアは最も小さいが第三位に入賞している.④も児島明子に次いで

V および S スコアとも高いが入賞していない. ⑦の体型は,168, 54, 94, 58 および 97 でこの中ではゴールデンプロポーションといえる.反対に S スコアの

最も小さい人は③でその体型は,166, 55, 86, 64 および 89 である.普通の日本女性の体型である.したがって,

伊藤絹子が第三位に入賞していることから,栄冠を勝ち取るためには,体型以外の要因が必要と推測できる. SAS JMP による主成分分析の結果を表 8 に示した.

表 8. SAS JMP による主成分分析の結果 第 1 主成分 第 2 主成分 第 3 主成分 第 4 主成分 第 5 主成分

固有値 2.3742 1.5421 0.6418 0.2608 0.1811 寄与率 47.4838 30.8421 12.8353 5.2159 3.6229

累積寄与率 47.4838 78.3260 91.1613 96.3771 100.0000 固有ベクトル

身長(cm) 0.48915 -0.18162 -0.71014 0.46123 0.10350 体重(kg) 0.55046 -0.29066 0.06018 -0.68814 0.36792

バスト(cm) 0.44171 0.53046 -0.08612 -0.24024 -0.67703 ウエスト(cm) 0.48697 -0.21441 0.68751 0.48206 -0.10878 ヒップ(cm) 0.15962 0.74510 0.10952 0.15374 0.61945

主成分分析の考察:第 1 主成分は寄与率 47%で約半分を占めている.ヒップを除いて相関係数は,高い.し

たがって,「重量感ある健康な体型」と命名する.第 2 主成分の寄与率は 31%である.バストとヒップを除き

負の相関である.したがって,第 2 主成分は「メリハリまたはコカコーラの瓶状体型」と命名する.第 2 主成

分までで累積寄与率が 78%を占めることから第 3 主成分以降は考察しない.もし考察するとウエストから「メ

リハリ」である.コカコーラの瓶の形は,女性の体系をイメージして製作されたことは有名な話である. 前述の V および S 係数の計算法を述べる.コンピュータからの計算結果,V 係数は身長の第 1 主成分の相関

係数で S 係数は身長の第 2 主成分の相関係数であることが分かる. 標準化した体型のデータ(表 5)から相関行列 R(表 9)を算出する.

êêêêêêêê

ë

é

úúúúúúúú

û

ù

----

-

-

=

000.1008.0685.0111.0067.0008.0000.1282.0667.0365.0685.0282.0000.1333.0344.0111.0667.0333.0000.1616.0067.0365.0344.0616.0000.1

ヒップ

ウエスト

バスト

体重

身長

ヒップウエストバスト体重身長 

R

標準化した相関係数から,身長はヒップのみに負の相関を示している.ヒップはバストのみに正の相関を示

している.身長と体重およびウエストと体重に正の高い相関が認められる.

表 9. SAS JMP による相関係数の算出結果

身長 (標準化データ)

体重 (標準化データ)

バスト (標準化データ)

ウエスト (標準化データ)

ヒップ (標準化データ)

身長(標準化データ) 1.0000 0.6163 0.3441 0.3654 -0.0669 体重(標準化データ) 0.6163 1.0000 0.3330 0.6672 -0.1109

バスト(標準化データ) 0.3441 0.3330 1.0000 0.2817 0.6846 ウエスト(標準化データ) 0.3654 0.6672 0.2817 1.0000 -0.0082 ヒップ(標準化データ) -0.0669 -0.1109 0.6846 -0.0082 1.0000 この行列を下記の式に代入して固有値および固有ベクトルなどが表 8 のように算出される.

0)( =- IRd l

R-λI に逆行列が存在しない.すなわち,R-λI 行列の行列式が 0 になる λ の値を算出する.4 次以上の行列に

ついては,行列式の演算が膨大であるため,コンピュータによらなければ算出できないことから手計算例を割

愛する.

Page 10: 第 章 主成分分析 - ai.u-hyogo.ac.jparima/lectures/JT-15.pdf · 第15章 主成分分析 140 ことによって,データの持つ情報を効率的に記述し,理解することができる.このような

第 15 章 主成分分析

148

【引用文献および引用資料】

有馬 哲・石村貞夫(1992):多変量解析のはなし,東京図書株式会社,東京.

慶應 SFC データ分析教育グループ(1999):データ分析入門,慶應義塾大学出版会,東京.

厚生労働省:http://www.mhlw.go.jp/

鈴木義一郎(1996):情報量基準による統計漢籍入門,pp152-164,講談社サイエンティフィク,東京.