View
295
Download
1
Embed Size (px)
Citation preview
STAT0_corr 1
二變數的相關性
變數之間的關係是統計研究上的一大目標 討論二分類變數的相關性,以列聯表來表示 討論二連續隨機變數時,可以作 x-y 散佈圖觀察
它們的關係強度 以相關係數來代表二者關係的強度
STAT0_corr 2
工作表現 差 中等 好
平均以下 67 64 25
測驗成績 平均 42 76 56
平均以上 10 23 37
二分類變數:工作表現與測驗成績
0
20
40
60
80
100
120
0 20 40 60 80 100 120
Eco-score
Anth
-sco
re
二連續變數: 經濟學成績與人類學成績
Econ Anthro51 74
68 70
72 88
97 93
人數
分數
STAT0_corr 3
二變數的關係可以是正相關,負相關,或 無關
-80
-70
-60
-50
-40
-30
-20
-10
0
10
20
30
0 2 4 6 8 10 12
X
Y
-10
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12
X
Y
-20
-15
-10
-5
0
5
10
15
20
25
30
0 2 4 6 8 10 12
X
Y
STAT0_corr 4
即是二變數相關,相關性也有不同強度
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12
X
Y
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12
X
Y
-20
-10
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12
X
Y
-60
-40
-20
0
20
40
60
80
100
0 2 4 6 8 10 12
X
Y
如何量測相關性強度?
STAT0_corr 5
二變數的相關係數
x , y 皆為隨機變數時,二者之相關性強度以 ρ 代表,稱為母體的相關係數。
。 樣本相關係數公式如下,稱為 Pearson’s coefficient of correlation
)()(
))((
22 yyxx
yyxx
SS
Sr
ii
ii
yyxx
xy
STAT0_corr 6
Computation formula for r
nx
iixxixxxS
2)(22)(
nyx
iiiixyiiyxyyxxS ))(())((
( 平方和 – 和之平方 / 樣本數 )
同理可得到下列二式:
ny
iiyyiyyyS
2)(22)(
STAT0_corr 7
例 17.1 : 12 個學生 final exam 經濟和人類學的成績如下表,求相關係數 r
需要的基本統計值為: X 之和, X 之平方和 Y 之和, Y 之平方和 XY 之和
Econ Anthro51 74
68 70
72 88
97 93
55 67
73 73
95 99
74 73
20 33
91 91
74 80
80 86
0
20
40
60
80
100
120
0 20 40 60 80 100 120
Eco-score
Ant
h-sc
ore
STAT0_corr 9
例 17.2 :經過職前訓練後, 400 位學員工作表現和考試成績統計如下表,求相關係數 r
因為是分類變數,無法直接作計算
需要將各類別數量化 工作表現: -1, 0, 1 測驗成績: -1, 0, 1
工作表現 差 中等 好
平均以下 67 64 25
測驗成績 平均 42 76 56
平均以上 10 23 37
工作表現 (y) -1 0 1
-1 67 64 25
測驗成績 (x) 0 42 76 56
1 10 23 37
STAT0_corr 10
xy
y
y
x
x
2
222 226)1(70)1(156
,86)1(700174)1(156
Sxx =
Syy =
Sxy =
r =
工作表現 (y) -1 0 1
-1 67 64 25
x 0 42 76 56
1 10 23 37
STAT0_corr 11
相關係數之意義
-1≦r≦+1 r >0 時, X 與 Y 是正相關, r < 0 時, X
與 Y 是負相關 r 值度量 X 與 Y 線性關係之強度 Y=a+bX 時, r=1 或 -1 |r| 愈接近 1 ,表示 X 與 Y 線性關係愈強;
|r| 愈接近 0 ,表示 X 與 Y 線性關係愈弱。
STAT0_corr 12
猜猜下列資料的相關係數
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12
X
Y
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12
X
Y
-20
-10
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12
X
Y
r=0.958
r=0.813
r=0.912
r=0.427
-100
-80
-60
-40
-20
0
20
40
60
80
100
120
0 2 4 6 8 10 12
X
Y
STAT0_corr 13
相關係數之特性
r 值與使用的單位無關 資料加減一常數, r 值不變,資料乘一倍
數, r 值不變 經驗: r > 0.9 ,視為強相關; r < 0.5 ,視為弱相關; r 值介於中間,視為中強相關。
實作上對相關係數的要求會因研究的領域而有差異。
STAT0_corr 14
以直線配適資料
當我們發現二變數間有相關性時,自然地想進一步地去得到一直線
得到的直線稱為迴歸線 (regression line) 此直線可用來解釋變數之間互相影響的效
果,或用來作預測 正式的迴歸分析涉及層面很廣,會有專門
的課學習
STAT0_corr 15
例 16.1 :我們知道長期暴露在噪音下會影響聽力,現在想用一直線式來說明暴露時間的長短對聽力的影響程度。搜集了 12 個人暴露時間的週數 (x) 與聽力範圍 (y) 的資料
10
11
12
13
14
15
16
0 50 100 150 200
no of weeks
hear
ing
rang
e
length hearing
47 15.1
56 14.1
116 13.2
178 12.7
19 14.6
75 13.8
160 11.9
31 14.8
12 15.3
164 12.6
43 14.7
74 14
STAT0_corr 16
最小平方法 Ordinary Least Square
先假設直線為: Y = a+bX 資料為 (xi, yi) 欲使樣本誤差項 (ei=yi- a - bxi ) 的平方和極小化,即
mini (yi- a - bxi )2
求解 a, b