View
264
Download
4
Embed Size (px)
Citation preview
Quant_reg1 1
第三章 迴歸分析
如何估計一合理的股價? 影響股價的因素: 紅利 (dividend) 、報酬率、 營業額、公司利潤、
其它 ( 不確定因素 ) 每一因素的影響程度可能不一樣 以一數學式描述 股價 =β1 ( 紅利 ) +β2 ( 報酬率 ) +β3 ( 營業額 ) +β4
( 利潤 ) + 不確定因素 此即為一線性迴歸模式
Quant_reg1 2
NXXY tktktt ,...,1 t,... ,110 模式
其中 Yt 為依變數 (dependent var.)
Xtj 為解釋變數 (explanatory var.), 或自變數 (dependent
var.)
βt 為參數 (parameter) β0 為截距 (intercept) ,捕捉模式的解釋變數無法解釋平均效果
εtj 為隨機誤差項 (error) ,個案的變異量註解 :
1 、線性迴歸模型意指其對參數為線性的方程式
2 、此 k 個解釋變數 , 可為量性或質性變數,
E(Y) = β0+ β1X 1 +…….+ βkX k
εt ~ NID( 0, σ2)
第一節 線性迴歸模型
Quant_reg1 3
0+1X1+2X2+…+ kXk 之意義
E(Yt|X1t ,…,Xkt)=0+1X1t+2X2t+…+ kXkt
在控制變數或條件下期望的觀察值實際觀察到的值 Yt為此條件期望值加上隨機誤差項 (random error term)
Yt=E(Yt|X1t ,…,Xkt)+t
Quant_reg1 4
模型假設
應變數 (Yt) 可表達為若干個已知自變數 (Xt ) 的線性函數與一誤差項 (t) 之和。
誤差項 (t) 的期望值為零。 E(t)=0 誤差項 (t) 彼此不相關,且每一誤差項的變異數相
同(獨立,同值 homoskedasticity )。 自變數為固定變數,且為非隨機 (nonstochastic) 。 自變數間不存在線性相關,且觀察值的個數要大於
待估計的參數數目。
Quant_reg1 5
有關假設之常見問題
解釋變數選擇錯誤。 真實的模式非線性 線性關係是指被解釋變數為參數的線性函數,而非
解釋變數的線性函數,如 Yt=a+bXt2 + t 可定義 Zt=Xt
2,但 Yt=a+{(Xt-b)/c} 則無法透過變數轉換轉成線性模型。
估計參數不穩定:會隨時間的改變而有不同。
Quant_reg1 6
其他常見問題 假設 3 中,若誤差項不符合獨立同質的假說,則可能產生的問題:1. 異質變異 (heteroskedasticity )2. 自我相關 (autocorrelation) ,即誤差項與前期的誤差相關
假設 5 中,若自變數間有高度相關的話,則可能產生共線性( multicollineariity)
針對上列問題,使用特殊迴歸方法來解決。( 將在第四章介紹 )
Quant_reg1 7
第二節 參數估計: OLS 估計法
以簡單線性迴歸模型為例:Yt = 0+1X1t +t
找一組 (0 , 1) 的組合,將樣本誤差項 (et=Yt- 0- 1X1t ) 的平方和極小化,即
min (Yt- 0- 1X1t )2
Quant_reg1 8
OLS 估計量
?ˆ
?ˆ
0
1
Quant_reg1 9
以矩陣表示
N
....
1
Y X
1
2
N
Y
YY
Y
1
2
1
1
1 N
X
XX
X
1
0
Quant_reg1 10
複迴歸模式的矩陣表示
矩陣 X 與 β 可表示為
kNN
k
k
XX
XX
XX
...1
...........
...1
...1
X
1
212
111
k
...
1
0
NXXY tktktt ,...,1 t,... ,110
Y X
Quant_reg1 11
複迴歸模式的 OLS 估計值
複迴歸模式參數 β 與變異數 σ2 的 OLS 估計值的矩陣表達如下:
其中, 為模式之殘差 殘差:觀察到未能被預測模式所解釋的部分。
1
2
ˆ ( ' ) 'Y
1 1ˆ ˆ ˆ ˆˆ (Y X ) '(Y X ) 'N K N K
ˆˆ Y X
Quant_reg1 12
估計量的期望值與變異數
參數的 OLS 估計量的期望值與變異數為
亦即此 OLS 估計量是不偏的 根據高斯—馬可夫定理,可證明的 OLS 估計量是最佳線性不偏估計量 (BLUE) ,也就是在所有的線性估計量中, OLS 估計量的變異數是最小的。
2 1
ˆ( )
ˆ( ) ( ' )
E
Cov
Quant_reg1 13
估計量的標準誤
上式中代 k=1 ,簡單線性迴歸模式中, 0、 1估計量的變異數如下:
觀察上式得到:若解釋變數的變異或波動越大,則 0、 1估計量的變異數越 ?,而精確度也就越?。
標準誤:變異數開根號,是估計精度的測值。
Quant_reg1 14
kk
kk
XbXbb
XXY
...
ˆ...ˆˆˆ
110
110 迴歸式
迴歸係數的意義
例:兩個自變數的模式, Y =β0+β1X1+β2 X2+ ε
b1 表示 X2 固定時,估計平均反應 (Y) 隨 X1 之每一單位增加而改變
的量
( 估計 X1 的改變對 Y 的影響 )
b2 表示 X1 固定時,估計平均反應 (Y) 隨 X2 之每一單位增加而改變
的量
迴歸式的意義
Quant_reg1 15
範例 : 研究一個社區相館的營業額 (Y ,千元 ) 是否可用該社區 16 歲以下人口數 (X1 ,千人 ) 和平均每人可支配所得 (X2 ,千元 ) 來預測? n=21
St. Err. B of B t(18) p-level
Interpret -68.8571 60.01695 -1.14729 .266282X1 1.4546 .21178 6.86820 .000002X2 9.3655 4.06396 2.30453 .033321
迴歸式: Y = - 68.9 + 1.45 X1+9.37 X2
解釋:平均每人可支配所得固定時,估計社區 16 歲以下人口數增加 1 千元,相館的營業額增加 1.45 千元,估計標準誤 = .212 。 社區 16 歲以下人口數固定時,估計平均每人可支配所得 增加 1 千元,相館的營業額增加 9.37 千元,估計標準誤 = 4.06 。
Quant_reg1 16
估計量的分配 若 ε~Normal ,可證明以矩陣表示的迴歸模式
中,估計量的分配為
因此,可得到
12~ , 'N X X 22
2~ T K
N kX
k)- t(N~ )ˆ.(.
ˆi
i
i
est
Quant_reg1 17
各係數的檢定
H 0: i= i0 H1: i i0
在常態分配的假設下,參數的估計量遵循一常態分配,故可以 t-test 來檢定參數的顯著性。
H 0: i=0 H1: i 0
檢定第 i 個解釋變數的效力若看 SAS 報表結果,當 p- 值小於 0.05 ,則拒絕 H0,
表示第 i 個解釋變數對 Y 的影響力顯著
Quant_reg1 18
雙尾檢定與單尾檢定 雙尾檢定: H1: i 0 用報表中的 p-value 單尾檢定: H1: i > 0 (或 H1:i < 0 ) 將報表中的 p-value / 2 ,為確實的 p- 值
係數的檢定目的是想知道 Xi 對 Y 的影響是否顯著,但此檢定是在其它解釋變數都已在模式內的情況下做的檢定,屬於額外的影響,非 Xi 對 Y 的單純影響。
Quant_reg1 19
範例 : 研究一個社區相館的營業額 (Y ,千元 ) 是否可用該社區 16 歲以下人口數 (X1 ,千人 ) 和平均每人可支配所得 (X2 ,千元 ) 來預測? n=21
St. Err. B of B t(18) p-level
Interpret -68.8571 60.01695 -1.14729 .266282X1 1.4546 .21178 6.86820 .000002X2 9.3655 4.06396 2.30453 .033321
係數檢定結果:已將平均每人可支配所得考慮後,社區 16 歲以下人口數對相館的營業額的影響是顯著的 (t test p- 值 = 0.000002) 已將社區 16 歲以下人口數考慮後,平均每人可支配所得對相館的營業額的影響是顯著的 (t test p- 值 = 0.0333)
Quant_reg1 20
第三節 預測 考慮簡單線性迴歸模式 給一解釋變數的值, x0,其最佳估計值(或預測
值)為00100
ˆˆˆ XY
預測誤差為預測誤差為
001100000 )ˆ()ˆ(ˆ XYY
期望值與變異數為0
2
2 00 2
( ) 0
( )1Var( ) 1
( )t
E
X
N X
Quant_reg1 21
影響預測精確度的因素:
觀察上式得到影響預測值精確度的因素為: 樣本的大小 (N) 解釋變數的波動程度 ( ) X0偏離解釋變數樣本平均值 ( ) 的程度
2( )t X X
Quant_reg1 22
模式的配適程度
迴歸是由分析資料者依據學理、資料的呈現來設定模式,故檢測選擇的模式是否適合資料是很重要的。配適度的檢測結果可幫助我們支持迴歸的適用性,也可幫助我們選出一最佳的模式。
常用的判定值:判定係數 (R2), Cp, AIC, BIC
Quant_reg1 23
變異來源 SS df MS F p-value
迴 歸 SSR k P(F>F0)
誤 差 SSE N-k-1
合 計 SSTO N-1 SSTO = SSR+SSE
k
SSRMSR
1
kN
SSEMSE
MSE
MSRF 0
變異數分析表( ANOVA table )
Analysis of Variance; DV: Y Sums of Mean Squares df Squares F p-level
Regress. 24015.28 2 12007.64 99.1035 .00Residual 2180.93 18 121.16Total 26196.21
Quant_reg1 24
判定係數
在統計上,我們常使用判定係數( R2)來說明Y之總變異由解釋變數解釋的能力
0 ≦R2≦1 只有一解釋變數時, R2 = r2,此處 r是 Y與 X
的相關係數。 增加 X 變數個數,一定會使 R2 值增加。
SSTO
SSE
SSTO
SSRR 12
SSTO = SSR+SSE
Quant_reg1 25
高的 R2 值並不一定表示配套的模式適合。 有些學者建議以 X 變數個數調整後的校正複判定係數 (A
djusted coef. of determination ) 為選擇模式的標準。
MSTO
MSE
NSSTO
kNSSERa
1)1/(
)1/(12
校正複判定係數
Regression Summary for Dependent Variable: Y
R= .95746877 R2 = .91674645 Adjusted R2 = .90749606
F(2,18)=99.104 p<.00000 Std.Error of estimate: 11.007
Quant_reg1 26
【例 】 研究某林區樹木之高度 (high) ,株數 (no) 對樹木直徑的影響迴歸式一 迴歸式二 R2 = 0.617 , Ra
2 = 0.553 R2 = 0.589 , Ra2 = 0.557
Parameter Estimates
Variable ParameterEstimate3.59373
0.05350
Pr > |t|
<.0001
0.0008
Intercept
high
Parameter Estimates
Variable ParameterEstimate4.13434
-0.00090957
0.05561
Pr > |t|
0.0004
0.3662
0.0009
Intercept
no
high
高的 R2 值並不一定表示配套的模式適合
Quant_reg1 27
Information Criterior
目前常使用 AIC (Akaike information criterior) 及 SBC (Schwartz information criterior) 的值來選擇較適合資料的模式:
)ln(ln NN
k
N
SSEBIC
N
k
N
SSEAIC
2ln
觀念上, AIC 與 SBC的值越小表示模式越適合SAS tipSAS tip
Model → R-squared selection → ˇAkaike’s information ˇ SBC
Quant_reg1 28
第五節 美、日股市對台股之影響 欲分析美、日的股市報酬對台灣股市的影響
vs 台股 美股
-0.04
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
TindexUsindex
vs 台股 日股
-0.06
-0.05
-0.04
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
Tindex
Jindex
Quant_reg1 29
第五節 美、日股市對台股之影響 觀察:美、日的股市前日報酬對台股的影響明顯
設立模式:
1,21,10, tjptusttw rrr
今日台股 前一日美股 前一日日股
Quant_reg1 30
SAS 報表輸出Analysis of Variance
Source DF Sum ofSquares
MeanSquare
F Value Pr > F
Model 2 0.00105 0.00052469 2.41 0.1043
Error 35 0.00761 0.00021748
Corrected Total 37 0.00866
Root MSE 0.01475 R-Square 0.1212
Dependent Mean -0.00037539 Adj R-Sq 0.0709
Coeff Var -3928.41058
Parameter Estimates
Variable Label DF ParameterEstimate
StandardError
t Value Pr > |t|
Intercept Intercept 1 -0.00008283 0.00241 -0.03 0.9728
lagus 1 0.45784 0.21108 2.17 0.0370
lagjp 1 0.04998 0.15256 0.33 0.7451
日股的額外影響不顯著
截距不顯著
Quant_reg1 31
Root MSE 0.01456 R-Square
0.1185
Dependent Mean
-0.00037539
Adj R-Sq 0.0940
Coeff Var -3879.40005
Parameter Estimates
Variable
Label DF ParameterEstimate
Standard
Error
t Value
Pr > |t|
Intercept
Intercept
1 -0.00016746
0.00236 -0.07 0.9439
lagus 1 0.45847 0.20844 2.20 0.0343
迴歸分析:刪去日股變數
注意: R-square 變小,但是 Adj R-sq 比較大
Quant_reg1 32
預測區間
Quant_reg1 33
迴歸分析無截距項 假設迴歸分析無截距項表示為 Rtw,t=β1*rus,t-1+β2*rjp,t-1+εt
( 即是少了一項 β0)
SAS tipSAS tip Model → no intercept
Root MSE 0.01454 R-Square
0.1217
Dependent Mean
-0.00037539
Adj R-Sq 0.0729
Coeff Var -3873.53054
Parameter EstimatesVariable
Label
DF
ParameterEstimate
StandardError
t Value
Pr > |t|
lagus 1 0.45812 0.20798 2.20 0.0341
lagjp 1 0.05055 0.14956 0.34 0.7374
只有兩個參數估計沒有截距
項的估計
Quant_reg1 34
一般而言,除非有很強力的理論或是證據認為模型是無截距項,否則一般皆應引入截距項,因為截距項為捕捉模型的解釋變數無法解釋之變異的淨平均效果。
Quant_reg1 35
第六節 使用 EXCEL進行迴歸分析註: excel 資料分析中的迴歸限於簡易迴歸使用
Quant_reg1 36
Quant_reg1 37
Quant_reg1 38
美股對台股之影響分析 估計的迴歸直線為 台股報酬 = 0.000167 + 0.458 X, X 為美股前一日的報酬 迴歸線標準誤 = 0.0146 此迴歸線之判定係數 =0.1185 ,表示台股報酬的變化
可由美股前一日的報酬解釋 11.85% 由此迴歸線得到:美股前一日的報酬每增加 1 ,估計
台股報酬增加 0.458 若美股前一日的報酬為 5%,預估台股報酬 2.29% 二變數的相關係數 = 0.344 ,表示台股報酬與美股前
一日報酬是弱相關
Quant_reg1 39
斜率經 t- 檢定, p- 值 =0.343 ,斜率顯著不為 0 ,意指美股前一日的報酬對台股當日的影響顯著
估計斜率 =0.458 ,標準誤 = 0.208 95% 斜率的信賴區間為 0.458±(2.025)0.208
Quant_reg1 40
Task roles :指定 Explanatory variables 解釋變數 (t) Dependent variables 依變數 (Y) Model : 指定模式選擇法Statistics :指定要列印的統計值 Plots :指定預測結果圖形 ■ Predicted ( 預測圖 ) ■ Residual ( 殘差圖 )Predictions :儲存統計值,預測值,或殘差 Title : 標題指定
SAS Enterprise Guide : 簡易迴歸分析
迴歸分析: Analysis → Regression → Linear
Quant_reg1 41
Plots :指定預測結果圖形 ■ Predicted ˇobserved vs independents
Show limits prediction limits⊙ 指定殘差圖 ■ Residual ˇstudentized vs independents
Predictions :儲存統計值,預測值,或殘差
■ Data ˇoriginal sample
■ Additional statistics ˇResiduals
ˇPrediction limits
■ Save ˇpreditions
■ Display output