View
218
Download
0
Embed Size (px)
Citation preview
1
Security Investment Analysis ─ Knowledge Discovery and Computational Intelligence
證券投資分析─知識發現與計算智慧 葉怡成
中華大學 資訊管理系
Prof. I-Cheng YehDepartment of Information Management
Chung-Hua University
2
大綱1. 證券投資分析─選股與擇時2. 知識發現與計算智慧3. 以知識發現建構選股模型4. 以計算智慧建構選股模型5. 未來的研究方向
3
1. 證券投資分析─選股與擇時1-1 為何選股與擇時如此重要?1-2 證券投資分析1-3 為何專家選股與擇時老是行不通?1-4 計量投資模型1-5 驗證選股模型的原則
4
1-1 為何選股與擇時如此重要?投資的目標1. 最大化報酬2. 最小化風險
Ex. 投資 100 萬,年報酬 7% 與 20% 的 30 年差距7% : 760 萬20% : 2 億 4 千萬相差 31 倍
5
1-2 證券投資分析What are the key problems in decision-making of stock investment?選股 (stock selection) : which to buy/sell擇時 (market timing) : when to buy/sell
6
How do experts make decisions in stock selection?
Fundamental Analysis Value Factor: Cheap > Expensive (P/E ratio, P/B ratio) Growth Factor: Earning > Deficit (ROE) Scale Factor: Small > Large (Market Capital) Moment Factor: Winner > Loser (Last quarter return) Liquidity Factor: Cold > Hot (Turnover, Trading volume)
7
最有效的選股因子:價值因子與成長因子權益證券的本質:淨值與盈餘
每股股價(P)
每股淨值(B)
每股盈餘(E)
E/B
經營能力
槓桿
E/P
益本比 B/P
股價槓桿
好公司(成長股)
便宜股票(價值股)
損益表
市場價格
資產負債表
8
Performance of Value Factor and Growth Factor
B/P 1 B/P 2 B/P 3 B/P 4 B/P 5
ROE 1ROE 2
ROE 3ROE 4
ROE 5
-8
-6
-4
-2
0
2
4
6
8
10
12t+
2第
季報酬率平均值
9
How do experts make decisions in Market Timing?
Technical Analysis Moving average (MA) MACD KD RSI OBV
10
Technical Analysis: Moving Average Approach
MA(1)<MA(50)賣出點
MA(1)>MA(50)買入點
MA(1)<MA(50)賣出點
11
Performance of Moving Average
-100
0
100
200
300
400
500
600
700
800
1993
/01/
05
1993
/08/
12
1994
/03/
30
1994
/11/
07
1995
/06/
23
1996
/01/
31
1996
/09/
11
1997
/04/
29
1997
/12/
08
1998
/08/
04
1999
/04/
03
1999
/11/
25
2000
/07/
28
2001
/04/
02
2001
/12/
18
2002
/09/
09
2003
/05/
28
2004
/02/
13
2004
/10/
26
2005
/07/
13
2006
/04/
03
2006
/12/
13
2007
/09/
03
2008
/05/
26
2009
/02/
11
(%)投資組合累計報酬率(%)大盤累計報酬率
12
1-3 為何專家選股與擇時老是行不通? 專家也是凡人Ⅰ ─ 學習的偏誤 專家也是凡人Ⅱ ─ 貪婪與恐懼 專家也是凡人Ⅲ ─ 自私與代理人效應 學習偏誤的處方 ─ 計量投資模型 貪婪恐懼的處方 ─ 自我紀律
13
1-4 計量投資 (quantitative investment )
A quantitative investment is an investment in which investment decisions are determined by numerical methods rather than by human judgment.
If the whole procedure is done by human judgment or intuition, an investment process will be labeled as a “fundamental” one.
If it is purely done by computer-based models, the process can be classified as “quantitative”.
以知識發現與計算智慧建構選股模型
14
1-5 驗證選股模型的原則 避免資料操弄偏差 (data-snooping bias) :模型要簡
單才有普遍性。 避免短期偏差:模型要歷經長期考驗才有普遍性。 避免先視偏差:模型不可「偷看」歷史資料。 避免存活偏差 (survivorship bias) :模型不可「忽
略」下市個股。 避免微型股偏差:模型要考慮實際操作的可行性。 考量成本原則:模型要考慮交易成本的侵蝕。 合理風險原則:模型要考慮風險與報酬的取捨。
15
What do you see?( 資料操弄偏差 )
What do you see?
16
資料操弄偏差 The particular parameters that researchers work with are often
chosen because they have been shown to be related to returns. For instance, suppose that you were asked to explain the change
in SAT test scores over the past 40 years in some particular state. Suppose that to do this you searched through all of the data series you could find. After much searching, you might discover, for example, that the change in the scores was directly related to the jackrabbit population in Arizona. We know that any such relation is purely accidental; but if you search long enough and have enough choices, you will find something even if it is not really there.
Needless to say, the researchers on these matters defend their work by arguing that they have not mined the data and been very careful to avoid such traps by not snooping at the data to see what will work.
17
2. 知識發現與計算智慧2.1 Information system level
2.2 Knowledge Discovery
2.3 Computational Intelligence
18
2.1 Information system level
Data Level: Data retrieval (DBMS) Information Level: Information generating, What-
if analysis (MIS) Knowledge Level: Knowledge discovering
(Knowledge Discovery) Intelligence Level: Intelligence creating
(Computational Intelligence)
19
2.2 Knowledge Discovery
Knowledge Discovery = Search for valuable information in large volumes of data.
KD methods mainly include: Regression analysis Neural networks Inductive Decision Tree
20
Regression analysis
n
i kikiki
n
ii xβyLMin
1
2
01
2 )(
kk xxxy ββββ ....22110
21
Neural networks
X1 X3
Y
輸入層
隱藏層
輸出層
5號單元
6號單元
4號單元
X2
64W 65W
42W 41W
43W 51W
52W 53W
6
5 4
H1 H2
))(exp(1
1
ki
iik
k XWH
))(exp(1
1
jk
kkj
k HWY
p j
pjpj YTE 2)(
22
Inductive Decision Tree
P/E<15
ROE<10% P/B<1.5
報酬率 8% Beta<1 報酬率 10%ROE<15%
報酬率 14% 報酬率 9% 報酬率 4% 市值 <50億
報酬率 10% 報酬率 6%
23
2.3 Computational Intelligence
Computational Intelligence involves iterative development or learning. Learning is based on empirical data. It is also known as non-symbolic AI and soft computing.
Computational Intelligence methods mainly include: Evolutionary computation Other bio-inspired computing Particle swarm optimization
Ant colony optimization
Artificial life
Artificial immune systems
24
Evolutionary computation
applies biologically inspired concepts such as populations, mutation, and survival of the fittest to generate increasingly better solutions to the problem.
25
以 GA 解最佳化的優點:不可微分與局部最大值函數
0
3
6
90
3
6
90
10
20
30
40
50
0
1.5
3
4.5
6
7.5
9 0
1.5
3
4.5
67.5
9
0
0.5
1
1.5
2
2.5
3
(a) 函數不可微分問題 (b) 多個局部最大值問題
26
Data structure of GA
27
Algorithm of GA
開始
建立第一代個體族群
計算個體適應度
複製
交配
突變
結果收歛
結束
子代取代父代
Yes
No
下一次演化
28
3. 以知識發現建構選股模型3.1 變數的處理─排序正規化3.2 單變數分析─相關係數與排序法3.3 迴歸分析3.4 神經網路3.5 迴歸樹3.6 模型比較3.7 小結
29
3.1 變數的處理─排序正規化自變數X1= 第 t+1 季報酬率X2= 第 t+1 季 ß 值 X3= 第 t 季負債 / 淨值比 X4= 第 t 季股東權益報酬率 (ROE)X5= 第 t+1 季成交量 ( 百萬股 ) X6= 第 t+1 季週轉率 X7= 第 t+1 季市值 ( 季底 ) X8= 第 t+1 季收盤價 ( 季底 ) X9= 第 t 淨值股價比 (B/P)X10= 第 t 益本比 (E/P)X11= 第 t 每股淨值 X12= 第 t 每股盈餘 (EPS)X13= 第 t 稅後淨利X14= 第 t 最新淨值股價比 (B/P)X15= 第 t 最新益本比 (E/P)
因變數Y= 第 t+2 季報酬率
30
排序正規化將自變數與因變數正規化,即將各股票的各變數分季
排序,該季最大者其排序值 Rank=1 ;最小者 Rank=0 ,其餘依此內插。例如中位數的 Rank=0.5 。
優點:(1) 專注橫向資料比較(2) 避免單季資料偏差(3) 避免極端資料偏差(4) 降低錯誤資料影響
31
3.2 單變數分析─相關係數與排序法各因子的第 t+2 季報酬率 Rank 值平均值的十等分圖
0.4
0.45
0.5
0.55
0.6
X1
(t)報酬率
X2
beta
值
X3
/
負債淨值比
X4股東權益報酬率
(RO
E)
X5
()
成交量百萬股
X6
週轉率
X7
()
市值季底
X8
()
收盤價季底
X9
(B/P
)淨值股價比
X10
(E/P
)益本比
X11
每股淨值
X12
(EPS
)每股盈餘
X13稅後淨利
X14最新淨值股價
(B/P
)比
X15最新益本比
(E/P
)t+2
Ran
k第
季報酬率
值的平均值
最重要變數B/P與 E/P
32
各因子對報酬率的相關係數
-0.10
-0.05
0.00
0.05
0.10
0.15
0.20
X1
(t)報酬率
X2
beta
值
X3
/
負債淨值比
X4股東權益報酬率
X5
()
成交量百萬股
X6
週轉率
X7
()
市值季底
X8
()
收盤價季底
X9
(B/P
)淨值股價比
X10
(E/P
)益本比
X11
每股淨值
X12
(EPS
)每股盈餘
X13稅後淨利
X14最新淨值股價比
X15
(E/P
)最新益本比
最重要變數B/P與 E/P最重要變數B/P與 E/P
33
3.3 迴歸分析
最重要變數B/P與 E/P
34
3.4 神經網路
-4
-3
-2
-1
0
1
2
3
X1報酬率
(t)
X2
beta
值
X3負債
/
淨值比
X4股東權益報酬率
X5成交量
(百萬股
)
X6
週轉率
X7市值
(季底
)
X8收盤價
(季底
)
X9淨值股價比
(B/P
)
X10益本比
(E/P
)
X11
每股淨值
X12
每股盈餘
(EPS
)
X13稅後淨利
X14最新淨值股價
X15最新益本比
影響度
最重要變數B/P與 E/P最重要變數B/P與 E/P
35
3.5 迴歸樹最重要變數B/P與 E/P
最重要變數B/P與 E/P
最重要變數B/P與 E/P
36
3.6 模型比較模型評估:季報酬率的比較
37
3.7 小結 迴歸分析在判斷變數的影響方向上並不正確。 神經網路常造成過度學習,但神經網路在判斷變數
的影響方向上遠比迴歸分析正確。 迴歸樹以三分段表現最佳。 迴歸分析、神經網路、迴歸樹這三種方法的投資績
效大致上相近。 各法都發現 X14 「最新淨值股價比」與 X15 「最新
營餘股價比」是最重要變數。 基本分析所能獲得的超額季報率約 5~6% 。
38
4. 以計算智慧建構選股模型4.1 系統原理4.2 規則篩選法 4.3 評分排序法4.4 模型比較4.5 小結
39
4.1 系統原理
GA 最佳化引擎 選股系統
40
4.2 規則篩選法原理:測試與發現最能篩選出高報酬股票的規則。(1) 知識結構:假設股票的篩選規則如下:IF X1 R1 C1AND X2 R2 C2AND X3 R3 C3其中 X1, X2, X3={1,2,…,15} 分別代表益本比等選股變數的 Rank 值 R1, R2, R3={<, >} 分別代表 “ <” 與 “ >” C1, C2, C3={1,2} 分別代表 0~1之間的實數例如 IF 4 > 0.2 代表 IF X4( 淨值報酬率 Rank 值 ) > 0.2 AND 14 > 0.9 AND X14( 新淨值市值比 Rank 值 ) > 0.9 AND 5 < 0.9 AND X5( 成交量 Rank 值 ) < 0.9
41
(2) 目標函數:應用篩選規則在每一季的股票資料庫,可產生每一季的投資組合,此投組的報酬率公式如下:
投組的報酬率 = 投組內所有股票的報酬率總和 ÷ 投組內所有股票的總數 利用一段期間內 (通常是十年左右 ) 的每一季的投組報酬率
可以產生一個代表篩選規則在此期間內的年複利報酬率。(3) 最佳化過程: GA 可調整 X1~X3, R1~R3, C1~C3等九個參數
來進行交易模擬,以找出能最大化在此期間內的年複利報酬率的最優交易策略。
42
世代數為 20 ,個體數為 20 優化過程
40%
45%
50%
55%
60%
65%
70%
0 50 100 150 200 250 300 350 400
解答序號
報酬率
Ran
k平均值
測試
訓練
報酬率收斂
43
訓練與測試期間報酬率 Rank 平均值散佈圖
0.3
0.4
0.5
0.6
0.7
0.3 0.4 0.5 0.6 0.7
訓練期間報酬率Rank平均值
測試期間報酬率
Ran
k平均值
44
GA 產生的選股規則
最重要變數X14(B/P)與 X15(E/P)
45
4.3 評分排序法
46
世代數為 20 ,個體數為 20 優化過程
40%
45%
50%
55%
60%
65%
0 50 100 150 200 250 300 350 400
解答序號
報酬率
Ran
k平均值
測試
訓練
報酬率收斂
47
訓練與測試期間報酬率 Rank 平均值散佈圖
0.4
0.45
0.5
0.55
0.6
0.65
0.4 0.45 0.5 0.55 0.6 0.65
Rank訓練期間報酬率 平均值
Ran
k測試期間報酬率
平均值
48
GA 產生的選股函數
49
選股函數的係數
-1.25
-1
-0.75
-0.5
-0.25
0
0.25
0.5
0.75
1
1.25X
1(R
etur
n)報酬率
X2
beta
風險
值
X3
/
負債淨值比
X4
(RO
E)淨值報酬率
X5
()
成交量百萬股
X6
週轉率
X7
()
市值季底
X8
()
收盤價季底
X9
%淨值市值比
X10
E/P
()
自算
X11
每股淨值
X12
(EPS
)每股盈餘
X13稅後淨利
X14新淨值市值比
X15
新益本比
選股函數係數
最重要變數B/P與 E/P最重要變數B/P與 E/P最重要變數B/P與 E/P最重要變數B/P與 E/P
50
4.4 模型比較模型評估:季報酬率的比較
51
4.5 小結 規則篩選法、評分排序法大致上效果相同。 評分排序法的優化過程與結果比規則篩選法更穩定。
各法都發現 X14 「最新淨值股價比」與 X15「最新營餘股價比」是最重要變數。
基本分析所能獲得的超額季報率約 4~7% 。
52
5. 未來的研究方向5.1 改善過度配適 ( 過度學習 )問題。5.2 風格輪動問題 (動態選股模型 ) 。5.3 結合選股模型與擇時模型。
53
5.1 改善過度配適 ( 過度學習 ) 問題
0
2
4
6
8
10
12
0 5 10 15
知識複雜度
預測誤差
訓練集驗證集
系統效能
54
5.2 風格輪動問題 ( 動態選股模型 )
不同時空背景下的選股模型是否不同 ?
P/E<15
ROE<10% P/B<1.5
報酬率 8% Beta<1 報酬率 10%ROE<15%
報酬率 14% 報酬率 9% 報酬率 4% 市值 <50億
報酬率 10% 報酬率 6%
期間 1 期間 2 期間 3
P/E<15
ROE<10% P/B<1.5
報酬率 8% Beta<1 報酬率 10%ROE<15%
報酬率 14% 報酬率 9% 報酬率 4% 報酬率 10%
P/E<15
ROE<10% P/B<1.5
報酬率 8% Beta<1 報酬率 10%ROE<15%
報酬率 14% 報酬率 9% 報酬率 4% 市值 <50億
報酬率 10% 報酬率 6%
模型 1模型 1 模型 2模型 2 模型 3模型 3
55
5.3 結合選股模型與擇時模型
擇時模型選股模型
複合模型
56
選股與擇時的差異
選股模型優點是無論多頭 或空頭,績效比大盤績效 高,缺點是會隨大盤波動。
擇時模型優點是可避過下 跌期,但缺點是持有期績 效與大盤相同。
-100
0
100
200
300
400
500
600
700
800
1993
/01/
05
1993
/08/
12
1994
/03/
30
1994
/11/
07
1995
/06/
23
1996
/01/
31
1996
/09/
11
1997
/04/
29
1997
/12/
08
1998
/08/
04
1999
/04/
03
1999
/11/
25
2000
/07/
28
2001
/04/
02
2001
/12/
18
2002
/09/
09
2003
/05/
28
2004
/02/
13
2004
/10/
26
2005
/07/
13
2006
/04/
03
2006
/12/
13
2007
/09/
03
2008
/05/
26
2009
/02/
11
(%)投資組合累計報酬率(%)大盤累計報酬率
-200
0
200
400
600
800
1000
1200
1993
/01/
0519
93/0
5/13
1993
/09/
1019
94/0
1/20
1994
/05/
3019
94/1
0/04
1995
/02/
1719
95/0
6/22
1995
/10/
2419
96/0
3/06
1996
/07/
1019
96/1
1/15
1997
/03/
2519
97/0
7/28
1997
/12/
0519
98/0
4/23
1998
/09/
0219
99/0
1/18
1999
/06/
0519
99/1
0/20
2000
/03/
1320
00/0
7/25
2000
/12/
0220
01/0
5/04
2001
/10/
0220
02/0
3/06
2002
/07/
2920
02/1
2/19
2003
/05/
2220
03/1
0/15
2004
/03/
1520
04/0
8/04
2004
/12/
2920
05/0
6/01
2005
/10/
2620
06/0
3/27
2006
/08/
1820
07/0
1/11
2007
/06/
1420
07/1
1/08
2008
/04/
1020
08/0
9/02
2009
/02/
0320
09/0
6/26
(%)投資組合累計報酬率
(%)大盤累計報酬率
選股模型績效
擇時模型績效
57
專書:證券投資分析─知識發現與計算智慧
第一篇 證券投資分析第 1章 投資的工具與市場第 2章 投資的風險與報酬第 3章 投資的多元分散與資產訂價第 4章 效率市場假說與實證第 5章 證券投資的橫斷面分析:選股第 6章 證券投資的縱斷面分析:擇時第 7章 投資的評價與歸因 第二篇 知識發現與計算智慧第 8章 知識模型─迴歸分析第 9章 知識模型─神經網路第 10章 知識模型─決策樹第 11章 最佳化方法─非線性規劃第 12章 最佳化方法─遺傳演算法
第三篇 知識發現與計算智慧 在證券投資分析的應用第 13章 基本面選股系統:統計分析第 14章 基本面選股系統:間接法第 15章 基本面選股系統:直接法第 16章 技術面擇時系統:統計分析第 17章 技術面擇時系統:直接法
58
延伸閱讀 1. Neural network Dennis Olson, Charles Mossman (2003). “Neural network forecasts
of Canadian stock returns using accounting ratios,” International Journal of Forecasting, 19, 453–465.
Stanley G. Eakins, Stanley R. Stansell (2003). “Can value-based stock selection criteria yield superior risk-adjusted returns: an application of neural networks,” International Review of Financial Analysis, 12 (2003) 83–97.
Qing Cao, Karyl B. Leggio, Marc J. Schniederjans (2005). “A comparison between Fama and French’s model and artificial neural networks in predicting the Chinese stock market,” Computers & Operations Research, 32, 2499–2512.
Tong-Seng Quah (2008). “DJIA stock selection assisted by neural network,” Expert Systems with Applications, 35, 50–58.
葉怡成 (2009) ,類神經網路 - 模式應用與實作,儒林。
59
延伸閱讀 2. Decision Trees Sorensen, E., Miller, K., and Ooi, C. (2000). The decision tree appro
ach to stock selection. Journal of Portfolio Management, pages 42–52.
N. REN, M. ZARGHAM and S. RAHIMI (2006). “A decision tree-based classification approach to rule extraction for security analysis,” International Journal of Information Technology & Decision Making, 5(1), 227–240.
Ilir Roko, Manfred Gilli (2008). “Using economic and financial information for stock selection,” Computational Management Science, 5(4), 317-335.
61
(1) 專注橫向資料比較 可以排除變數的時間軸的變化之縱向影響,而專注
在同一時間的變數之相對大小之橫向比較。例如如果 ROE 是使用原始值,則不景氣時的 ROE=0% 與5% 都將被視為低;景氣時的 ROE=10% 與 20% 都將被視為高。這對統計分析 ROE 是否影響報酬率是不利的。如果將 ROE採用「排序正規化」,則在不景氣時, ROE=0% 可能算是低, ROE=5% 可能算是高,但在景氣時, ROE=10%只能算低, ROE=20% 才能算高,可以克服此問題。
62
(2) 避免單季資料偏差 可以避免單一季對統計結果、迴歸建模的不利影響。
例如某一季大漲,而該季正好有強烈的規模效應,而其它季並無明顯的規模效應,但統計結果仍可能會出現強烈的規模效應。如果將報酬率採用「排序正規化」,每一季的報酬率的 Rank 值平均值、標準差都相同,就不會出現此結論。
63
(3) 避免極端資料偏差 可以避免極端值對統計結果、迴歸建模的不利影響。
例如假設有 100筆資料,其中報酬率最大值是 1000% ,次大是 100% 與 98% ,則它們會被正規化到 1.0, 0.99 與 0.98 。這樣對計算報酬率平均值或作迴歸分析時,其不利影響可被降低。
64
(4) 降低錯誤資料影響 可以降低萬一有錯誤值在資料庫中,對統計結果、迴
歸建模的不利影響。例如假設有 100筆資料,其中有一個資料其報酬率是 10000% 的錯誤值,則會被正規化到 1.0 ,真正的最大值會被正規化到 0.99 。這樣對計算報酬率平均值或作迴歸分析時,其不利影響可被降低。