1 Security Investment Analysis ─ Knowledge Discovery and Computational Intelligence 證券投資分析 ─ 知識發現與計算智慧葉怡成中華大學資訊管理系 Prof

1

Security Investment Analysis ─ Knowledge Discovery and Computational Intelligence

證券投資分析─知識發現與計算智慧葉怡成

中華大學資訊管理系

Prof. I-Cheng YehDepartment of Information Management

Chung-Hua University

2

大綱1. 證券投資分析─選股與擇時2. 知識發現與計算智慧3. 以知識發現建構選股模型4. 以計算智慧建構選股模型5. 未來的研究方向

3

1. 證券投資分析─選股與擇時1-1 為何選股與擇時如此重要？1-2 證券投資分析1-3 為何專家選股與擇時老是行不通？1-4 計量投資模型1-5 驗證選股模型的原則

4

1-1 為何選股與擇時如此重要？投資的目標1. 最大化報酬2. 最小化風險

Ex. 投資 100 萬，年報酬 7% 與 20% 的 30 年差距7% ： 760 萬20% ： 2 億 4 千萬相差 31 倍

5

1-2 證券投資分析What are the key problems in decision-making of stock investment?選股 (stock selection) ： which to buy/sell擇時 (market timing) ： when to buy/sell

6

How do experts make decisions in stock selection?

Fundamental Analysis Value Factor: Cheap > Expensive (P/E ratio, P/B ratio) Growth Factor: Earning > Deficit (ROE) Scale Factor: Small > Large (Market Capital) Moment Factor: Winner > Loser (Last quarter return) Liquidity Factor: Cold > Hot (Turnover, Trading volume)

7

最有效的選股因子：價值因子與成長因子權益證券的本質：淨值與盈餘

每股股價(P)

每股淨值(B)

每股盈餘(E)

E/B

經營能力

槓桿

E/P

益本比 B/P

股價槓桿

好公司(成長股)

便宜股票(價值股)

損益表

市場價格

資產負債表

8

Performance of Value Factor and Growth Factor

B/P 1 B/P 2 B/P 3 B/P 4 B/P 5

ROE 1ROE 2

ROE 3ROE 4

ROE 5

-8

-6

-4

-2

0

2

4

6

8

10

12t+

2第

季報酬率平均值

9

How do experts make decisions in Market Timing?

Technical Analysis Moving average (MA) MACD KD RSI OBV

10

Technical Analysis: Moving Average Approach

MA(1)<MA(50)賣出點

MA(1)>MA(50)買入點

MA(1)<MA(50)賣出點

11

Performance of Moving Average

-100

0

100

200

300

400

500

600

700

800

1993

/01/

05

1993

/08/

12

1994

/03/

30

1994

/11/

07

1995

/06/

23

1996

/01/

31

1996

/09/

11

1997

/04/

29

1997

/12/

08

1998

/08/

04

1999

/04/

03

1999

/11/

25

2000

/07/

28

2001

/04/

02

2001

/12/

18

2002

/09/

09

2003

/05/

28

2004

/02/

13

2004

/10/

26

2005

/07/

13

2006

/04/

03

2006

/12/

13

2007

/09/

03

2008

/05/

26

2009

/02/

11

(%)投資組合累計報酬率(%)大盤累計報酬率

12

1-3 為何專家選股與擇時老是行不通？專家也是凡人Ⅰ ─ 學習的偏誤專家也是凡人Ⅱ ─ 貪婪與恐懼專家也是凡人Ⅲ ─ 自私與代理人效應學習偏誤的處方 ─ 計量投資模型貪婪恐懼的處方 ─ 自我紀律

13

1-4 計量投資 (quantitative investment )

A quantitative investment is an investment in which investment decisions are determined by numerical methods rather than by human judgment.

If the whole procedure is done by human judgment or intuition, an investment process will be labeled as a “fundamental” one.

If it is purely done by computer-based models, the process can be classified as “quantitative”.

以知識發現與計算智慧建構選股模型

14

1-5 驗證選股模型的原則避免資料操弄偏差 (data-snooping bias) ：模型要簡

單才有普遍性。避免短期偏差：模型要歷經長期考驗才有普遍性。避免先視偏差：模型不可「偷看」歷史資料。避免存活偏差 (survivorship bias) ：模型不可「忽

略」下市個股。避免微型股偏差：模型要考慮實際操作的可行性。考量成本原則：模型要考慮交易成本的侵蝕。合理風險原則：模型要考慮風險與報酬的取捨。

15

What do you see?( 資料操弄偏差 )

What do you see?

16

資料操弄偏差 The particular parameters that researchers work with are often

chosen because they have been shown to be related to returns. For instance, suppose that you were asked to explain the change

in SAT test scores over the past 40 years in some particular state. Suppose that to do this you searched through all of the data series you could find. After much searching, you might discover, for example, that the change in the scores was directly related to the jackrabbit population in Arizona. We know that any such relation is purely accidental; but if you search long enough and have enough choices, you will find something even if it is not really there.

Needless to say, the researchers on these matters defend their work by arguing that they have not mined the data and been very careful to avoid such traps by not snooping at the data to see what will work.

17

2. 知識發現與計算智慧2.1 Information system level

2.2 Knowledge Discovery

2.3 Computational Intelligence

18

2.1 Information system level

Data Level: Data retrieval (DBMS) Information Level: Information generating, What-

if analysis (MIS) Knowledge Level: Knowledge discovering

(Knowledge Discovery) Intelligence Level: Intelligence creating

(Computational Intelligence)

19

2.2 Knowledge Discovery

Knowledge Discovery = Search for valuable information in large volumes of data.

KD methods mainly include: Regression analysis Neural networks Inductive Decision Tree

20

Regression analysis

n

i kikiki

n

ii xβyLMin

1

2

01

2 )(

kk xxxy ββββ ....22110

21

Neural networks

X1 X3

Y

輸入層

隱藏層

輸出層

5號單元

6號單元

4號單元

X2

64W 65W

42W 41W

43W 51W

52W 53W

6

5 4

H1 H2

))(exp(1

1

ki

iik

k XWH

))(exp(1

1

jk

kkj

k HWY

p j

pjpj YTE 2)(

22

Inductive Decision Tree

P/E<15

ROE<10% P/B<1.5

報酬率 8% Beta<1 報酬率 10%ROE<15%

報酬率 14% 報酬率 9% 報酬率 4% 市值 <50億

報酬率 10% 報酬率 6%

23

2.3 Computational Intelligence

Computational Intelligence involves iterative development or learning. Learning is based on empirical data. It is also known as non-symbolic AI and soft computing.

Computational Intelligence methods mainly include: Evolutionary computation Other bio-inspired computing Particle swarm optimization

Ant colony optimization

Artificial life

Artificial immune systems

24

Evolutionary computation

applies biologically inspired concepts such as populations, mutation, and survival of the fittest to generate increasingly better solutions to the problem.

25

以 GA 解最佳化的優點：不可微分與局部最大值函數

0

3

6

90

3

6

90

10

20

30

40

50

0

1.5

3

4.5

6

7.5

9 0

1.5

3

4.5

67.5

9

0

0.5

1

1.5

2

2.5

3

(a) 函數不可微分問題 (b) 多個局部最大值問題

26

Data structure of GA

27

Algorithm of GA

開始

建立第一代個體族群

計算個體適應度

複製

交配

突變

結果收歛

結束

子代取代父代

Yes

No

下一次演化

28

3. 以知識發現建構選股模型3.1 變數的處理─排序正規化3.2 單變數分析─相關係數與排序法3.3 迴歸分析3.4 神經網路3.5 迴歸樹3.6 模型比較3.7 小結

29

3.1 變數的處理─排序正規化自變數X1= 第 t+1 季報酬率X2= 第 t+1 季 ß 值 X3= 第 t 季負債 / 淨值比 X4= 第 t 季股東權益報酬率 (ROE)X5= 第 t+1 季成交量 ( 百萬股 ) X6= 第 t+1 季週轉率 X7= 第 t+1 季市值 ( 季底 ) X8= 第 t+1 季收盤價 ( 季底 ) X9= 第 t 淨值股價比 (B/P)X10= 第 t 益本比 (E/P)X11= 第 t 每股淨值 X12= 第 t 每股盈餘 (EPS)X13= 第 t 稅後淨利X14= 第 t 最新淨值股價比 (B/P)X15= 第 t 最新益本比 (E/P)

因變數Y= 第 t+2 季報酬率

30

排序正規化將自變數與因變數正規化，即將各股票的各變數分季

排序，該季最大者其排序值 Rank=1 ；最小者 Rank=0 ，其餘依此內插。例如中位數的 Rank=0.5 。

優點：(1) 專注橫向資料比較(2) 避免單季資料偏差(3) 避免極端資料偏差(4) 降低錯誤資料影響

31

3.2 單變數分析─相關係數與排序法各因子的第 t+2 季報酬率 Rank 值平均值的十等分圖

0.4

0.45

0.5

0.55

0.6

X1

(t)報酬率

X2

beta

值

X3

/

負債淨值比

X4股東權益報酬率

(RO

E)

X5

()

成交量百萬股

X6

週轉率

X7

()

市值季底

X8

()

收盤價季底

X9

(B/P

)淨值股價比

X10

(E/P

)益本比

X11

每股淨值

X12

(EPS

)每股盈餘

X13稅後淨利

X14最新淨值股價

(B/P

)比

X15最新益本比

(E/P

)t+2

Ran

k第

季報酬率

值的平均值

最重要變數B/P與 E/P

32

各因子對報酬率的相關係數

-0.10

-0.05

0.00

0.05

0.10

0.15

0.20

X1

(t)報酬率

X2

beta

值

X3

/

負債淨值比


X5

()

成交量百萬股

X6

週轉率

X7

()

市值季底

X8

()

收盤價季底

X9

(B/P

)淨值股價比

X10

(E/P

)益本比

X11

每股淨值

X12

(EPS

)每股盈餘

X13稅後淨利

X14最新淨值股價比

X15

(E/P

)最新益本比

最重要變數B/P與 E/P最重要變數B/P與 E/P

33

3.3 迴歸分析


34

3.4 神經網路

-4

-3

-2

-1

0

1

2

3

X1報酬率

(t)

X2

beta

值

X3負債

/

淨值比


X5成交量

(百萬股

)

X6

週轉率

X7市值

(季底

)

X8收盤價

(季底

)

X9淨值股價比

(B/P

)

X10益本比

(E/P

)

X11

每股淨值

X12

每股盈餘

(EPS

)

X13稅後淨利

X14最新淨值股價

X15最新益本比

影響度

最重要變數B/P與 E/P最重要變數B/P與 E/P

35

3.5 迴歸樹最重要變數B/P與 E/P



36

3.6 模型比較模型評估：季報酬率的比較

37

3.7 小結迴歸分析在判斷變數的影響方向上並不正確。神經網路常造成過度學習，但神經網路在判斷變數

的影響方向上遠比迴歸分析正確。迴歸樹以三分段表現最佳。迴歸分析、神經網路、迴歸樹這三種方法的投資績

效大致上相近。各法都發現 X14 「最新淨值股價比」與 X15 「最新

營餘股價比」是最重要變數。基本分析所能獲得的超額季報率約 5~6% 。

38

4. 以計算智慧建構選股模型4.1 系統原理4.2 規則篩選法 4.3 評分排序法4.4 模型比較4.5 小結

39

4.1 系統原理

GA 最佳化引擎選股系統

40

4.2 規則篩選法原理：測試與發現最能篩選出高報酬股票的規則。(1) 知識結構：假設股票的篩選規則如下：IF X1 R1 C1AND X2 R2 C2AND X3 R3 C3其中 X1, X2, X3={1,2,…,15} 分別代表益本比等選股變數的 Rank 值 R1, R2, R3={<, >} 分別代表 “ <” 與 “ >” C1, C2, C3={1,2} 分別代表 0~1之間的實數例如 IF 4 > 0.2 代表 IF X4( 淨值報酬率 Rank 值 ) > 0.2 AND 14 > 0.9 AND X14( 新淨值市值比 Rank 值 ) > 0.9 AND 5 < 0.9 AND X5( 成交量 Rank 值 ) < 0.9

41

(2) 目標函數：應用篩選規則在每一季的股票資料庫，可產生每一季的投資組合，此投組的報酬率公式如下：

投組的報酬率 = 投組內所有股票的報酬率總和 ÷ 投組內所有股票的總數利用一段期間內 (通常是十年左右 ) 的每一季的投組報酬率

可以產生一個代表篩選規則在此期間內的年複利報酬率。(3) 最佳化過程： GA 可調整 X1~X3, R1~R3, C1~C3等九個參數

來進行交易模擬，以找出能最大化在此期間內的年複利報酬率的最優交易策略。

42

世代數為 20 ，個體數為 20 優化過程

40%

45%

50%

55%

60%

65%

70%

0 50 100 150 200 250 300 350 400

解答序號

報酬率

Ran

k平均值

測試

訓練

報酬率收斂

43

訓練與測試期間報酬率 Rank 平均值散佈圖

0.3

0.4

0.5

0.6

0.7

0.3 0.4 0.5 0.6 0.7

訓練期間報酬率Rank平均值

測試期間報酬率

Ran

k平均值

44

GA 產生的選股規則

最重要變數X14(B/P)與 X15(E/P)

45

4.3 評分排序法

46

世代數為 20 ，個體數為 20 優化過程

40%

45%

50%

55%

60%

65%

0 50 100 150 200 250 300 350 400

解答序號

報酬率

Ran

k平均值

測試

訓練

報酬率收斂

47

訓練與測試期間報酬率 Rank 平均值散佈圖

0.4

0.45

0.5

0.55

0.6

0.65

0.4 0.45 0.5 0.55 0.6 0.65

Rank訓練期間報酬率平均值

Ran

k測試期間報酬率

平均值

48

GA 產生的選股函數

49

選股函數的係數

-1.25

-1

-0.75

-0.5

-0.25

0

0.25

0.5

0.75

1

1.25X

1(R

etur

n)報酬率

X2

beta

風險

值

X3

/

負債淨值比

X4

(RO

E)淨值報酬率

X5

()

成交量百萬股

X6

週轉率

X7

()

市值季底

X8

()

收盤價季底

X9

%淨值市值比

X10

E/P

()

自算

X11

每股淨值

X12

(EPS

)每股盈餘

X13稅後淨利

X14新淨值市值比

X15

新益本比

選股函數係數

最重要變數B/P與 E/P最重要變數B/P與 E/P最重要變數B/P與 E/P最重要變數B/P與 E/P

50

4.4 模型比較模型評估：季報酬率的比較

51

4.5 小結規則篩選法、評分排序法大致上效果相同。評分排序法的優化過程與結果比規則篩選法更穩定。

各法都發現 X14 「最新淨值股價比」與 X15「最新營餘股價比」是最重要變數。

基本分析所能獲得的超額季報率約 4~7% 。

52

5. 未來的研究方向5.1 改善過度配適 ( 過度學習 )問題。5.2 風格輪動問題 (動態選股模型 ) 。5.3 結合選股模型與擇時模型。

53

5.1 改善過度配適 ( 過度學習 ) 問題

0

2

4

6

8

10

12

0 5 10 15

知識複雜度

預測誤差

訓練集驗證集

系統效能

54

5.2 風格輪動問題 ( 動態選股模型 )

不同時空背景下的選股模型是否不同 ?

P/E<15

ROE<10% P/B<1.5




期間 1 期間 2 期間 3

P/E<15

ROE<10% P/B<1.5


報酬率 14% 報酬率 9% 報酬率 4% 報酬率 10%

P/E<15

ROE<10% P/B<1.5




模型 1模型 1 模型 2模型 2 模型 3模型 3

55

5.3 結合選股模型與擇時模型

擇時模型選股模型

複合模型

56

選股與擇時的差異

選股模型優點是無論多頭或空頭，績效比大盤績效高，缺點是會隨大盤波動。

擇時模型優點是可避過下跌期，但缺點是持有期績效與大盤相同。

-100

0

100

200

300

400

500

600

700

800

1993

/01/

05

1993

/08/

12

1994

/03/

30

1994

/11/

07

1995

/06/

23

1996

/01/

31

1996

/09/

11

1997

/04/

29

1997

/12/

08

1998

/08/

04

1999

/04/

03

1999

/11/

25

2000

/07/

28

2001

/04/

02

2001

/12/

18

2002

/09/

09

2003

/05/

28

2004

/02/

13

2004

/10/

26

2005

/07/

13

2006

/04/

03

2006

/12/

13

2007

/09/

03

2008

/05/

26

2009

/02/

11

(%)投資組合累計報酬率(%)大盤累計報酬率

-200

0

200

400

600

800

1000

1200

1993

/01/

0519

93/0

5/13

1993

/09/

1019

94/0

1/20

1994

/05/

3019

94/1

0/04

1995

/02/

1719

95/0

6/22

1995

/10/

2419

96/0

3/06

1996

/07/

1019

96/1

1/15

1997

/03/

2519

97/0

7/28

1997

/12/

0519

98/0

4/23

1998

/09/

0219

99/0

1/18

1999

/06/

0519

99/1

0/20

2000

/03/

1320

00/0

7/25

2000

/12/

0220

01/0

5/04

2001

/10/

0220

02/0

3/06

2002

/07/

2920

02/1

2/19

2003

/05/

2220

03/1

0/15

2004

/03/

1520

04/0

8/04

2004

/12/

2920

05/0

6/01

2005

/10/

2620

06/0

3/27

2006

/08/

1820

07/0

1/11

2007

/06/

1420

07/1

1/08

2008

/04/

1020

08/0

9/02

2009

/02/

0320

09/0

6/26

(%)投資組合累計報酬率

(%)大盤累計報酬率

選股模型績效

擇時模型績效

57

專書：證券投資分析─知識發現與計算智慧

第一篇證券投資分析第 1章投資的工具與市場第 2章投資的風險與報酬第 3章投資的多元分散與資產訂價第 4章效率市場假說與實證第 5章證券投資的橫斷面分析：選股第 6章證券投資的縱斷面分析：擇時第 7章投資的評價與歸因第二篇知識發現與計算智慧第 8章知識模型─迴歸分析第 9章知識模型─神經網路第 10章知識模型─決策樹第 11章最佳化方法─非線性規劃第 12章最佳化方法─遺傳演算法

第三篇知識發現與計算智慧在證券投資分析的應用第 13章基本面選股系統：統計分析第 14章基本面選股系統：間接法第 15章基本面選股系統：直接法第 16章技術面擇時系統：統計分析第 17章技術面擇時系統：直接法

58

延伸閱讀 1. Neural network Dennis Olson, Charles Mossman (2003). “Neural network forecasts

of Canadian stock returns using accounting ratios,” International Journal of Forecasting, 19, 453–465.

Stanley G. Eakins, Stanley R. Stansell (2003). “Can value-based stock selection criteria yield superior risk-adjusted returns: an application of neural networks,” International Review of Financial Analysis, 12 (2003) 83–97.

Qing Cao, Karyl B. Leggio, Marc J. Schniederjans (2005). “A comparison between Fama and French’s model and artificial neural networks in predicting the Chinese stock market,” Computers & Operations Research, 32, 2499–2512.

Tong-Seng Quah (2008). “DJIA stock selection assisted by neural network,” Expert Systems with Applications, 35, 50–58.

葉怡成 (2009) ，類神經網路 - 模式應用與實作，儒林。

59

延伸閱讀 2. Decision Trees Sorensen, E., Miller, K., and Ooi, C. (2000). The decision tree appro

ach to stock selection. Journal of Portfolio Management, pages 42–52.

N. REN, M. ZARGHAM and S. RAHIMI (2006). “A decision tree-based classification approach to rule extraction for security analysis,” International Journal of Information Technology & Decision Making, 5(1), 227–240.

Ilir Roko, Manfred Gilli (2008). “Using economic and financial information for stock selection,” Computational Management Science, 5(4), 317-335.

60

Q&A

敬請指教葉怡成

中華大學資訊管理系[email protected]

61

(1) 專注橫向資料比較可以排除變數的時間軸的變化之縱向影響，而專注

在同一時間的變數之相對大小之橫向比較。例如如果 ROE 是使用原始值，則不景氣時的 ROE=0% 與5% 都將被視為低；景氣時的 ROE=10% 與 20% 都將被視為高。這對統計分析 ROE 是否影響報酬率是不利的。如果將 ROE採用「排序正規化」，則在不景氣時， ROE=0% 可能算是低， ROE=5% 可能算是高，但在景氣時， ROE=10%只能算低， ROE=20% 才能算高，可以克服此問題。

62

(2) 避免單季資料偏差可以避免單一季對統計結果、迴歸建模的不利影響。

例如某一季大漲，而該季正好有強烈的規模效應，而其它季並無明顯的規模效應，但統計結果仍可能會出現強烈的規模效應。如果將報酬率採用「排序正規化」，每一季的報酬率的 Rank 值平均值、標準差都相同，就不會出現此結論。

63

(3) 避免極端資料偏差可以避免極端值對統計結果、迴歸建模的不利影響。

例如假設有 100筆資料，其中報酬率最大值是 1000% ，次大是 100% 與 98% ，則它們會被正規化到 1.0, 0.99 與 0.98 。這樣對計算報酬率平均值或作迴歸分析時，其不利影響可被降低。

64

(4) 降低錯誤資料影響可以降低萬一有錯誤值在資料庫中，對統計結果、迴

歸建模的不利影響。例如假設有 100筆資料，其中有一個資料其報酬率是 10000% 的錯誤值，則會被正規化到 1.0 ，真正的最大值會被正規化到 0.99 。這樣對計算報酬率平均值或作迴歸分析時，其不利影響可被降低。

Documents

1 Security Investment Analysis ─ Knowledge Discovery and Computational Intelligence 證券投資分析 ─ 知識發現與計算智慧 葉怡成 中華大學 資訊管理系 Prof

1 Security Investment Analysis ─ Knowledge Discovery and Computational Intelligence 證券投資分析 ─ 知識發現與計算智慧葉怡成中華大學資訊管理系 Prof