47
第 1 第 第第第第第第 JMP 1/47 第第第第第 B 第 1 第 第1第 第第第第第第 JMP 第第第 第第第第 第第第第第第第第第第第 第第第 「」 第第第 第第第第 第第第第第第第第第 第第第第第第 「」 第第第第 2004.4.14. SFC5 第

多変量解析 B  第 1 回

  • Upload
    anana

  • View
    68

  • Download
    3

Embed Size (px)

DESCRIPTION

多変量解析 B  第 1 回. 第 1 章:データ分析と JMP 林俊克&廣野元久「多変量データの活用術」:海文堂 永田靖&棟近雅彦「多変量解析法入門」:サイエンス社 廣野元久 2004.4.14. SFC5 限. この授業での約束. 遅刻,早退はしない( 大幅減点 ) 授業中は携帯の電源を切る( 大幅減点 ) 単位取得申請をしたら あきらめないで最後まで授業に出続ける 授業中の討論には積極的に参加する( 加点 ) 課題は期日までに提出する( 救済措置は取りません ) メインのソフトはJMP V 5 を使用するが,細かい操作手順は紹介しないので自己学習する - PowerPoint PPT Presentation

Citation preview

Page 1: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 1/47

多変量解析 B 第 1回

第 1 章:データ分析と JMP林俊克&廣野元久「多変量データの活用術」:海文

堂永田靖&棟近雅彦「多変量解析法入門」:サイエン

ス社廣野元久

2004.4.14. SFC5 限

Page 2: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 2/47

この授業での約束

遅刻,早退はしない(大幅減点)授業中は携帯の電源を切る(大幅減点)単位取得申請をしたらあきらめないで最後まで授業に出続ける授業中の討論には積極的に参加する(加点)課題は期日までに提出する(救済措置は取りません)メインのソフトはJMP V 5 を使用するが,細かい操作手順は紹介し

ないので自己学習する配布物は,そのとき限りとするので,やむを得ない事情で授業を欠席し

た場合には,各自,友人からコピーをすること配布物の部数には限り(前回の授業参加数分を用意します)があるので,

各自 1 部以上受け取らないこと

以上,如何なる理由があろうと守ってください.

Page 3: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 3/47

評価について

最終報告書( 60 )手法の活用度( 20 )手法を正しく使っていること( 20 )報告書の論点がぶれていないこと( 10 )ストーリ展開の面白さ( 10 )

授業態度( 40 )通常課題( 30 ): 1 つの課題について評価の比率

              は最終リポートと同じ

積極的な質問や討論への参加( 10 )

Page 4: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 4/47

科学的データ分析

自分の考えや方法を相手に理解させ,実現するには①  威圧:力つく(暴力に訴えて)で押し切る②  情念:情念や想いでハートに訴えかける③  論理:具体的な命題を証明し,理屈で証明する④  逃避:議論を避け,自分の殻の中で夢想を続ける

<現代のビジネスシーン>世の中の具体的な現象を数量で代用し,  数量を論理的な段階を踏んで整理,分析することで     自身の提案の正しさを証明し,相手を説得する  データ分析は論理学である

Page 5: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 5/47

第 1章 データ分析と JMP

本日の内容多変量解析法とは何かどのような方法があるのかどういう形式のデータに適用するのかどのような目的で用いるのかどのような結果が得られるのか

Page 6: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 6/47

多変量データの分析目的

5 つの観点現象や構造の縮約と単純化

主成分分析,因子分析や対応分析分類や層別による差異

クラスター分析や判別分析予測

決定分析や重回帰分析仮説の検証と検定

グラフィカルモデリングや構造方程式モデル因果関係の把握と制御

実験計画法やコンジョイント分析

Page 7: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 7/47

本講座で扱うサンプルデータ手法:掲載章 フォルダ ファイル名

サンプル ビッグクラスユーザ提供 A電子部品ユーザ提供 部下の上司評価ユーザ提供 理想の恋人

① 現象や構造の縮約と単純化 ユーザ提供 食の好み・合成指標の発見 ユーザ提供 2001選挙データ          (量的データ) ユーザ提供 主成分数値例

サンプル 車の調査          (質的データ) ユーザ提供 8人の好物

ユーザ提供 プリンタ評価サンプル ビッグクラスユーザ提供 クラスター例

② 分類や層別による差異 ユーザ提供 理想の恋人・潜在的な群の抽出 ユーザ提供 2001選挙データ・既存の群の特徴抽出 サンプル ビッグクラス・判別ルールの作成 ユーザ提供 部品調達・判別ルールによる予測 ユーザ提供 デジカメデザイン  ユーザ提供 色差と嗜好

ユーザ提供 商品購入重要度サンプル 車の調査ユーザ提供 化粧品

③ 予測 サンプル あやめ・要因の制御 ユーザ提供 色差と嗜好・効果の影響度 ユーザ提供 多重共線性  ユーザ提供 商品満足度

⑤ 因果関係の把握と制御 (コンジョイント分析) - -ファイル無 ** FAX( の選好度)④ 仮説の検証と検定 * IC( 工程)・因果の同定 *J MP未対応 *(市販乳の外観イメージ)

  *(従業員満足度)

決定分析

グラフィカルモデリング

主成分分析

対応分析

クラスター分析

判別分析

重回帰分析

3

4

 5

6

7

 8

9

アイデア創出・仮説探索

対策立案・仮説検証

現状認識

分類・層別

Page 8: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 8/47

道具としての統計的方法

• 統計解析の見方 , 考え方– はじめに

• 知りたいことは,調べてみないと分からない• 多くの知りたいことは,すべてを調べること

はできない• 知りたい多くの事柄は変動している   

• 主要な部分(共通性)に光をあてる        ---金鉱から純金を分離する作業

• KKD (勘・経験・度胸)にたよらずに ,

  科学的手順(作法)で  ものの本質を解明する

Page 9: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 9/47

1.1 データの見方・考え方

知りたいことは調べて見ないと分からない現象を数値データや言語情報で代用する知りたいことの多くは,全てを調べることができない

知りたい多くの事柄は変動している得られたデータは,時と場所,場合によって異なる得られたデータの 1 つ 1 つは異なる(ばらついている)得られたデータの代表値も標本ごとに異なる

知りたいことの多くはばらつきを持っているものであるばらつきに惑わされないで,ものの本質を理解するばらつきの中から主要な部分(共通性)に光をあてる

金鉱から純金を分離する作業 KKD (勘・経験・度胸)に頼らずに科学的手順(作法)で解明する

ばらつきの大きさを評価する

Page 10: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 10/47

1.1.1 事実から真実の推測例として VTR の録画可能時間を調べてみる

データ 測定した VTRテープの録画時間の余裕度の 100個のデータは表 1 に示すとうりである.測定単位は(秒)である.

表 1  VTRテープ 100本の余裕度のデータ

 (単位:秒)

Page 11: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 11/47

1.1.1 事実から真実の推測100個の測定データから共通性を見つけるのは難しいの

で,グラフにしたりデータを要約する

1 3 0

1 4 0

1 5 0

1 6 0

1 7 0

1 8 0

1 9 0

2 0 0

2 1 0

2 2 0

2 3 0

2 4 0

4 9

5 8

˜^‰æŽžŠÔ‚Ì·(•b)1 0 0 .0%9 9 .5%9 7 .5%9 0 .0%7 5 .0%5 0 .0%2 5 .0%1 0 .0%2 .5%0 .5%0 .0%

Å ‘å’l

4 •ªˆÊ “_’†‰› ’l( ƒƒfƒB ƒA ƒ“)

4 •ªˆÊ “_

Ŭ’l

 2 3 7 .0 0 2 3 7 .0 0 2 2 0 .0 0 2 1 7 .9 0 2 1 0 .7 5 2 0 3 .0 0 1 9 6 .2 5 1 9 1 .1 0 1 7 9 .1 0 1 4 0 .0 0 1 4 0 .0 0

•ª Ê“_

•½‹ Ï•W€ •Î·•½‹ Ï‚Ì•W€Œë·•½‹ Ï‚Ì㑤 9 5%M—ŠŒÀŠ E•½‹ ς̉º‘¤ 9 5%M—ŠŒÀŠ EN

   2 0 2 .8 31 2 .0 5 1 2 8 41 .2 0 5 1 2 8 42 0 5 .2 2 1 2 42 0 0 .4 3 8 7 6

      1 0 0

ƒ‚[ƒƒ“ƒg

タイトル

1 3 0

1 4 0

1 5 0

1 6 0

1 7 0

1 8 0

1 9 0

2 0 0

2 1 0

2 2 0

2 3 0

2 4 0

4 9

5 8

˜^‰æŽžŠÔ‚Ì·(•b)1 0 0 .0%9 9 .5%9 7 .5%9 0 .0%7 5 .0%5 0 .0%2 5 .0%1 0 .0%2 .5%0 .5%0 .0%

Å ‘å’l

4 •ªˆÊ “_’†‰› ’l( ƒƒfƒB ƒA ƒ“)

4 •ªˆÊ “_

Ŭ’l

 2 3 7 .0 0 2 3 7 .0 0 2 2 0 .0 0 2 1 7 .9 0 2 1 0 .7 5 2 0 3 .0 0 1 9 6 .2 5 1 9 1 .1 0 1 7 9 .1 0 1 4 0 .0 0 1 4 0 .0 0

•ª Ê“_

•½‹ Ï•W€ •Î·•½‹ Ï‚Ì•W€Œë·•½‹ Ï‚Ì㑤 9 5%M—ŠŒÀŠ E•½‹ ς̉º‘¤ 9 5%M—ŠŒÀŠ EN

   2 0 2 .8 31 2 .0 5 1 2 8 41 .2 0 5 1 2 8 42 0 5 .2 2 1 2 42 0 0 .4 3 8 7 6

      1 0 0

ƒ‚[ƒƒ“ƒg

1 3 0

1 4 0

1 5 0

1 6 0

1 7 0

1 8 0

1 9 0

2 0 0

2 1 0

2 2 0

2 3 0

2 4 0

4 9

5 8

˜^‰æŽžŠÔ‚Ì·(•b)1 0 0 .0%9 9 .5%9 7 .5%9 0 .0%7 5 .0%5 0 .0%2 5 .0%1 0 .0%2 .5%0 .5%0 .0%

Å ‘å’l

4 •ªˆÊ “_’†‰› ’l( ƒƒfƒB ƒA ƒ“)

4 •ªˆÊ “_

Ŭ’l

 2 3 7 .0 0 2 3 7 .0 0 2 2 0 .0 0 2 1 7 .9 0 2 1 0 .7 5 2 0 3 .0 0 1 9 6 .2 5 1 9 1 .1 0 1 7 9 .1 0 1 4 0 .0 0 1 4 0 .0 0

•ª Ê“_

•½‹ Ï•W€ •Î·•½‹ Ï‚Ì•W€Œë·•½‹ Ï‚Ì㑤 9 5%M—ŠŒÀŠ E•½‹ ς̉º‘¤ 9 5%M—ŠŒÀŠ EN

   2 0 2 .8 31 2 .0 5 1 2 8 41 .2 0 5 1 2 8 42 0 5 .2 2 1 2 42 0 0 .4 3 8 7 6

      1 0 0

ƒ‚[ƒƒ“ƒg

1 3 0

1 4 0

1 5 0

1 6 0

1 7 0

1 8 0

1 9 0

2 0 0

2 1 0

2 2 0

2 3 0

2 4 0

4 9

5 8

˜^‰æŽžŠÔ‚Ì·(•b)1 0 0 .0%9 9 .5%9 7 .5%9 0 .0%7 5 .0%5 0 .0%2 5 .0%1 0 .0%2 .5%0 .5%0 .0%

Å ‘å’l

4 •ªˆÊ “_’†‰› ’l( ƒƒfƒB ƒA ƒ“)

4 •ªˆÊ “_

Ŭ’l

 2 3 7 .0 0 2 3 7 .0 0 2 2 0 .0 0 2 1 7 .9 0 2 1 0 .7 5 2 0 3 .0 0 1 9 6 .2 5 1 9 1 .1 0 1 7 9 .1 0 1 4 0 .0 0 1 4 0 .0 0

•ª Ê“_

•½‹ Ï•W€ •Î·•½‹ Ï‚Ì•W€Œë·•½‹ Ï‚Ì㑤 9 5%M—ŠŒÀŠ E•½‹ ς̉º‘¤ 9 5%M—ŠŒÀŠ EN

   2 0 2 .8 31 2 .0 5 1 2 8 41 .2 0 5 1 2 8 42 0 5 .2 2 1 2 42 0 0 .4 3 8 7 6

      1 0 0

ƒ‚[ƒƒ“ƒg

タイトル

図 1.1 録画時間の差(秒)の分布

Page 12: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 12/47

1.1.1  事実から真実の推測

• H氏は,ビデオテープの録画時間を調べるために 100個のデータを測定した

• 録画時間は表示より 3 分 23秒長い

母集団

標本標本で知りえたこと    (事実)

母集団でもあてはまるか      (真実)

研究対象 本当に知りたいこと   (普遍性)

Page 13: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 13/47

1.1.1  事実から真実の推測

母集団

標本 1

標本で知りえたこと    (事実)

母集団でもあてはまるか      (真実)

研究対象 本当に知りたいこと   (普遍性)

標本 2標本 3標本 4

標本 i

値は標本毎に 違っている  (変動)

Page 14: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 14/47

1.1.1  事実から真実の推測

• 真実の探求• 不確定要素の集まりによりものは変動

する• 値が動くもの  変量( variable ) 

と呼ぼう• 変動が確率的に考えられるもの     確率変量( random variable )

X , Y ,概念 実現値(記号)

xX実際の値

69  ( kg)167 ( cm)42   ( 才 )男

Page 15: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 15/47

1.2  JMPの分析メニュー

JMPウインドウコマンド: JMP の機能をコントロールするメニュー:コマンドを目的別にまとめたもの分析プラットフォーム:分析のためのウインドウ

図 1.2  JMPの起動画面

メニュー

JMPスタータ

スタータを使えば,素早く目的の分析ができる

Page 16: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 16/47

1.2  JMPの分析メニューファイルメニュー

図 1.3 ファイルメニュー一覧

Page 17: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 17/47

1.2  JMPの分析メニュー編集メニュー

図 1.4  編集メニュー一覧

図 1.5  テーブルメニュー一覧

Page 18: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 18/47

1.2  JMPの分析メニュー行メニュー

図 1.6  行メニュー一覧

Page 19: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 19/47

1.2  JMPの分析メニュー列メニュー

図 1.7  列メニュー一覧

Page 20: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 20/47

1.2  JMPの分析メニュー分析メニュー

図 1.8  分析メニューの一覧

重回帰分析

主成分分析

Page 21: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 21/47

1.2  JMPの分析メニューその他のメニュー

図 1.9 その他のメニューの一覧

Page 22: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 22/47

変量の役割

Page 23: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 23/47

1.2.2  JMPの基本操作 –起動と終了–

JMP をインストールするとアイコンが画面に表示される

起動:アイコンをダブルクリックするデータ読込:ファイルメニューから既存のデータファ

イ         ルを読み込む分析:目的に合わせた分析を分析メニューから選び実 

   行する保存:分析結果をジャーナルやスクリプトに保存する終了:ファイルメニューの終了をクリックして終わら

せる

図 1.10  JMPのショートカット

Page 24: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 24/47

1.3 データ分析の活用指針

データをコンピュータに入力すると,役に立つ結果が自動的に出てこない

自動課題解決装置ではないデータ分析は考える人の筆記用具

データが得られたら,まずグラフにして分析戦略を考える

データの中には,よい子もいれば,普通の子もいれば,悪い子もいる

Page 25: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 25/47

1.4 データと測定の尺度分析するデータの形式

データグリッド 行:個体(オブザベーション) 列:変量

変量名

個体番号

テーブルパネル

図 1.12  ビッグクラスのデータ

1 2, , , , ,i px x x x

  個体    1    2    3   ・   ・   ・   n

(個体) × (変量)の形式のデータを多変量データと呼ぶ

Page 26: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 26/47

1.4 データと測定の尺度

図 1.13  変量の持つ尺度

Page 27: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 27/47

多変量データ

問題意識

A

B

C

データの観測・収集

・・・

多変量解析手法選択 結果

解析

1.知見に照らし合わせて  解釈を行う2.報告書作成3.プレゼン

多変量解析はデータの統合化   合成指標の作成

1 1 2 2 p pZ w x w x w x 合成指標=重み ×生データの特性

Page 28: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 28/47

重回帰分析

サンプル

広さ x

1

築年数 x2 価格y

1 51 16 3.0

2 38 4 3.2

3 57 16 3.3

4 51 11 3.9

5 53 4 4.4

6 77 22 4.5

7 63 5 4.5

8 69 5 5.4

9 72 2 5.4

10 73 1 6.0

1( ' ) 'b x x x y1 )重みを計算する

2 )誤差を調べる1( ( ' ) ')ne I x x x x y

3 )モデル式の確定

0 1 1 2 2y b b x b x

中古マンションデータ

(永田&棟近 多変量解析法入門,サイエンス社, 2000 より引用)

Page 29: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 29/47

重回帰分析

1. データ:都内の中古マンションデータ(価格と広さと築年数)  ・予測や制御したい 1個の変量がある  ・予測や制御に使う複数の変量がある知りたいこと   1 )価格は広さと築年数とによって予測できるか   2 )予測できるとすれば,その精度はどのくらいか   3 )同じ地区で広さ 70m 2 ,築 10年のとき価格 5800万円は妥当か分かること

   1 )回帰式の推定                     により予測可能   2 )自由度調整済寄与率 0.933 であり,精度は十分である   3 )回帰式に           を代入すると         を得る    信頼率 95%の予測区間( 4210 , 5570 )    相場より高い

1 2 1 2ˆ 1.02 0.0668 0.0808 : :y x x x x 広さ, 築年数

1 270, 10x x ˆ 4.89y

Page 30: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 30/47

数量化 1類

サンプル

線形代数 x

1

サークル x

2

総合成績y

1 優 所属 96

2 優 所属 88

3 優 無所属 77

4 優 無所属 89

5 良 所属 80

6 良 無所属 71

7 良 無所属 77

8 可 所属 78

9 可 所属 70

10 可 無所属 62

成績データ

1( ' ) 'b x x x y

1 )ダミー変数を作る

2 )重みを計算する

3 )残差の検討,モデル式確定

0 1 1 2 2y b b x b x

11 12 2

00 0, ,

11 1x x x

  所属優 優無所属良 可

(永田&棟近 多変量解析法入門,サイエンス社, 2000 より引用)

Page 31: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 31/47

数量化 1類

1. データ:大学卒業時の成績データ               (線形代数とサークル所属と総合成績)  ・予測や制御したい 1個の変数がある  ・予測や制御に使う複数の変数がある知りたいこと1 )総合成績は線形代数の成績とサークル所属の有無より予測できるか2 )予測できるとすれば,その精度はどのくらいか3 )線形代数が優でサークル無所属の学生の総合成績はどのように予測できるか分かること   1 )回帰式の推定                     により予測可能   2 )自由度調整済寄与率 0.727 であり,精度はそこそこである   3 )回帰式に線形代数が優= 0 ,サークル無所属= 1 を代入する         を得る

ˆ 83.0y

00

ˆ 83.0 10.09.0

19.0

y

優無所属

良所属

Page 32: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 32/47

判別分析

サンプル

状態 y

検査値  x1 検査値 2  x

2

1 健常者 50 15.5

2 健常者 69 18.4

3 健常者 93 26.4

4 健常者 76 22.9

5 健常者 88 18.6

6 患者 43 16.9

7 患者 56 21.6

8 患者 38 12.2

9 患者 21 16.0

10 患者 25 10.5

1 ) 2群の相関比 η2 を最大に

2 )判別率を調べる

3 )モデル式の確定とルール化0 1 1 2 2 p pDF x x x

ここの符号(正負)で判定 値そのものに意味はない

A B

A  B  

実群

判定

2 1 21

1 1 2

1 y= /( ' ) '

2 y=- /

n n nx x x y

n n n

群群

健康診断データ

(永田&棟近 多変量解析法入門,サイエンス社, 2000 より引用)

Page 33: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 33/47

判別分析

1. データ:健康診断データ(健常 /患者と検査値 1 と検査値2 )  ・グループ分けに使いたい複数個の変数がある  ・グループを示す 1個の質的変数がある知りたいこと   1 )疾患にかかっているか否かを 2 つの検査値から判別できるか   2 )判別できるとすれば,その精度はどのくらいか   3 )同じ健康診断で検査 1= 68 ,検査 2= 21.6 は健常者か分かること(テキストとは異なる)   1 )判別関数の推定                     により予測可能   2 )判別率 9/10= 0.9 であり十分である   3 )判別関数に           を代入すると       を得る    この場合,健常者は正値であるので健常者と予測できる

1 2 1 2ˆ -6.639 0.226 0.334 : 1 : 2y x x x x 検査 , 検査

1 268, 21.6x x ˆ 1.51y

Page 34: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 34/47

数量化 2類

サンプル

状態 y

吐き気  x1 頭痛  x2

1 健常者 無 少

2 健常者 少 無

3 健常者 無 無

4 健常者 無 無

5 健常者 無 無

6 患者 少 多

7 患者 多 無

8 患者 少 少

9 患者 少 多

10 患者 多 少

1 )ダミー変数を作る

3 )モデル式の確定とルール化0 1 1 2 2 p pDF x x x

ここの符号(正負)で判定 値そのものに意味はない

A B

A  B  

2 1 21

1 1 2

1 y= /( ' ) '

2 y=- /

n n nx x x y

n n n

群群

11 12 21 22

0 0 0 0, , ,

1 1 1 1x x x x

無 無 無 無少 多 少 多

2 ) 2群の相関比 η2 を最大に

健康診断データ

(永田&棟近 多変量解析法入門,     サイエンス社, 2000 より引用)

Page 35: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 35/47

数量化 2類

1. データ:健康診断データ(健常 /患者と吐き気と頭痛)  ・グループ分けに使いたい複数個の変数がある  ・グループを示す 1個の質的変数がある

知りたいこと   1 )疾患にかかっているか否かを吐き気と頭痛から判別できるか   2 )判別できるとすれば,その精度はどのくらいか   3 )同じ健康診断で吐き気=無,頭痛=多は健常者か分かること   1 )判別関数の推定                     により予測可能   2 )判別率 10/10= 0 であり十分である   3 )判別関数に吐き気=無,頭痛=多を代入すると       を    得る この場合,健常者は正値であるので患者と予測できる

ˆ 1.60y

0 0

ˆ 12.80 9.6 6.4

20.8 14.4

y

無 無少 少多 多

吐き気 頭痛

Page 36: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 36/47

主成分分析

生徒 国語 x1

英語 x2

数学  x3 理科  x

4

1 86 79 67 68

2 71 75 78 84

3 42 43 39 44

4 62 58 98 95

5 96 97 61 63

6 39 33 45 50

7 50 53 64 72

8 78 66 52 47

9 51 44 76 72

10 89 92 93 91

試験の成績データ1 )分散最大の合成変数を順次  作る

2 )主成分軸の確定

3 )主成分軸の解釈

0 1 1 2 2 p pZ x x x

'A UD V

(永田&棟近 多変量解析法入門,サイエンス社, 2000 より引用)

Page 37: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 37/47

主成分分析

1. データ:学業成績データ(国語,英語,数学,理科)  ・合成指標を作る複数個の変数がある  ・変数の役割は全て同じ

知りたいこと   1 )主成分の構成により低い次元でデータを解釈できないか   2 )それぞれの主成分の説明力はどれくらいか   3 )科目や生徒の特徴付け,分類をどのようにできるか分かること   1 )主要成分の推定                        2 )第 2主成分までの累積寄与率は 0.986 であり十分である   3 )係数の値より,第 1主成分は総合力,第 2主成分は文系,理     系の違い

3 31 1 2 2 4 41

1 2 3 4

3 31 1 2 2 4 42

1 2 3 4

0.487 0.511 0.508 0.493

0.527 0.474 0.481 0.516

xx x xz

xx x xz

国語  英語  数学    理科

Page 38: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 38/47

主成分分析

ŒÅ—L’lŠñ—^—¦—ÝÏŠñ—^—¦

‘Œê‰pŒê”Šw—‰È

ŒÅ—LƒxƒNƒgƒ‹

  2.7207 68.0183 68.0183

 0.48727 0.51054 0.50832 0.49349

 

  1.2218 30.5450 98.5633

 0.52734 0.47400-0.48075-0.51587

 

  0.0524  1.3103 99.8736

 0.49897-0.53867 0.50411-0.45467

 

  0.0051  0.1264100.0000

 0.48529-0.47383-0.50632 0.53256

 

Žå¬•ª•ªÍ: ‘ŠŠÖŒW”s—ñ‚©‚ç

-2

-1

0

1

2

Žå¬•ª2

1

2

3

4

5

6

7

8

9

10

-3 -2 -1 0 1 2 3Žå¬•ª1

Žå¬•ª1‚Ǝ嬕ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW

‘Œê‰pŒê”Šw—‰ÈŽå¬•ª1Žå¬•ª2

  1.0000  0.9670  0.3761  0.3113  0.8037  0.5829

  0.9670  1.0000  0.4146  0.3983  0.8421  0.5239

  0.3761  0.4146  1.0000  0.9721  0.8385 -0.5314

  0.3113  0.3983  0.9721  1.0000  0.8140 -0.5702

  0.8037  0.8421  0.8385  0.8140  1.0000  0.0000

  0.5829  0.5239 -0.5314 -0.5702  0.0000  1.0000

‘Œê ‰pŒê ”Šw —‰ÈŽå¬•ª1Žå¬•ª2‘ŠŠÖ‚ƈöŽq•‰‰×—Ê

-1

-0.75

-0.5

-0.25

0

0.25

0.5

0.75

1

Žå¬•ª2

‘Œê‰pŒê

”Šw—‰È

-1 -0.75 -0.5 -0.25 0 .25 .5 .75 1Žå¬•ª1

Žå¬•ª1‚Ǝ嬕ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW

主成分得点因子負荷量

Page 39: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 39/47

A

C

E

B

F DG

全体の選好度新しい物好きの選好度

第一成分

第二成分

目立つ

オリジナリティー

新鮮な

楽しい

質感

高級感

丈夫そうな

現代的な

好きな

親しみのある

精密感

使いやすそうな飽きのこない小さく見えるカメラらしい

B

G

EF D

C

A

主成分分析の例

1994年

Page 40: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 40/47

正準判別分析の例

-4

-3

-2

-1

0

1

2

3

4

³€2

A

B

C D

E

F

G

H

I

J

-4 -3 -2 -1 0 1 2 3 4³€1

デジタルカメラのデザイン評価による布置

伝統新規

非流線

抵抗

機能

精密

期待

2002 :これは , 正準判別と呼ばれる手法を使っています

Page 41: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 41/47

対応分析

生徒 国語  x

1

社会  x

2

算数  x

3

理科  x

4

音楽  x

5

図工  x

6

体育  x

7

1 ○ ○ ○

2 ○ ○ ○

3 ○ ○

4 ○ ○ ○ ○

5 ○ ○

6 ○ ○ ○

7 ○ ○ ○

8 ○ ○ ○ ○

9 ○ ○ ○ ○

10 ○ ○ ○

児童の得意科目データ

1 )行と列との相関が高くなるように並べ替える2 )データの頻度から合理的な得点を与える

(永田&棟近 多変量解析法入門,サイエンス社, 2000 より引用)

Page 42: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 42/47

対応分析

1. データ:学童の好きな科目データ(国語,英語,数学,理科,等)  ・合成指標を作る複数個の質的な変数がある  ・変数の役割は全て同じ知りたいこと

   1 )科目と児童に数量を与え,低い次元でデータを解釈できないか   2 )そのような数量化によって説明力はどれくらいか   3 )科目や児童の特徴付け,分類をどのようにできるか

分かること   1 )科目に与える主要な数量として,成分 1 ( -0.581,-0.840, ・・・ , -0.949) と成分 2 ( -0.336,-0.335, ・・・ ,1.000 )を得る.児童に与える   数量として ( 0.167,1.120, ・・・ , -0.291) と成分 2 ( -0.179,-397,   ・・・ ,-0.616 )を得る.             2 )第 2成分までの累積寄与率は 0.655 でありほどほどの説明力   3 )数量で散布図を描くと,科目や児童の特徴付けができる

Page 43: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 43/47

対応分析JMP 出力

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

c1

‰¹Šy

‘Œê

ŽZ”

ŽÐ‰ï

}H

‘̈ç

—‰È1

2

3

4

5

67

8

9

10

-1.5 -1.0 -0.5 .0 .5 1.0 1.5c2

‰È–Ú Ž™“¶

0.749660.541890.426480.338310.324670.12187

“ÁˆÙ’l0.561980.293640.181880.114450.105410.01485

Šµ«0.44170.23080.14300.09000.08290.0117

”ä—¦0.44170.67250.81550.90550.98831.0000

—ÝÏ

‰¹Šy‘ŒêŽZ”ŽÐ‰ï}H‘̈痉È

‰È–Ú -1.307  0.443 -0.408  0.865 -0.650  1.152 -0.287

c1 0.5287-0.8475 0.0000 0.4814 0.4464 0.5462-0.5409

c2-0.0208 0.2678-0.6800-0.3945 0.7240 0.2461-0.0298

c3 12345678910

Ž™“¶ -0.219 -1.052  1.064  0.205  1.345 -0.998 -0.890  0.725  0.320 -0.112

c1-0.5794 0.5998-0.2779-0.4184 0.9483 0.2671-0.0075-0.1664 0.6801-0.8540

c2 0.7518 0.0181 0.6025-0.4904-0.1739 0.5263-0.5711 0.0525-0.0612-0.3455

c3

Ú×

Ž™“¶

0.00

0.25

0.50

0.75

1.00

‰¹Šy‘Œê

ŽZ”ŽÐ‰ï}H

‘Ìˆç —‰È

‰È–Ú

12345678910

ƒ‚ƒUƒCƒN}

クロス表のカテゴリ数が多い場合に,その詳細を検討する

Page 44: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 44/47

クラスター分析

生徒 国語 x1

英語 x2

数学  x3 理科  x

4

1 86 79 67 68

2 71 75 78 84

3 42 43 39 44

4 62 58 98 95

5 96 97 61 63

6 39 33 45 50

7 50 53 64 72

8 78 66 52 47

9 51 44 76 72

10 89 92 93 91

試験の成績データ1 )項目間(生徒)の距離を定義

2 )データから距離を測定

3 )集落(クラスター)の  作成と解釈

(永田&棟近 多変量解析法入門,サイエンス社, 2000 より引用)

Page 45: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 45/47

クラスター分析

1. データ:学童の成績データ(国語,英語,数学,理科)  ・距離を作る複数個の量的な変数がある  ・変数の役割は全て同じ

知りたいこと   1 )似た能力を持った生徒をグルーピングできないか   2 )そのようなグループにはどのような特徴をもった生徒が多いか

分かること   1 )距離 2500 で切ると {1,5,8}, {2,4,10} , {3,6,7,9} の 3グループ    2 ) {1,5,8} は総合力が高く文系科目が得意, {2,4,10} は総合力   が高く理系科目が得意 , {3,6,7,9} は総合的学力が低い

Page 46: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 46/47

クラスター分析

1

2

34

5

67

8

9

10

‘Œ

ê‰

pΐ

”Šw

—‰

ÈŽ÷Œ`}

JMP 出力(ウォード法)

    9    8    7    6    5    4    3    2    1

ƒNƒ‰ƒXƒ^[‚Ì” 0.471117279 0.529416099 0.744159508 1.034668340 1.355895175 1.386843179 2.120907188 2.925488473 4.129762622

‹——£   371221311

Œ‹‡æ6951048723

Œ‹‡ŽÒƒNƒ‰ƒXƒ^[•ªÍ‚Ì—š—ð

    3    2    1

ƒNƒ‰ƒXƒ^[‚Ì” 0.500842402 0.545108074 3.312815361

‹——£   ”Šw‘Œê‘Œê

Œ‹‡æ—‰È‰pŒê”Šw

Œ‹‡ŽÒƒNƒ‰ƒXƒ^[•ªÍ‚Ì—š—ð

クラスターは樹形図をみながら主観的に分割する

Page 47: 多変量解析 B  第 1 回

第 1章 データ分析と JMP 47/47

グラフィカルモデリング比較的新しい多変量解析の手法グラフ理論と多変量正規分布に基づく条件付独立性の変数選択が結び付いたもの

G-GM (ソフト)により解析する

因果推論と内部要約の双方の分析が可能解釈はグラフにより行う

上司に対する従業員満足度  (テクノメ研,グラフィカルモデリングの実際,日科技連 1999 )