46
第7第 第第第 7.1 岭岭岭岭岭岭岭岭 7.2 岭岭岭岭岭岭岭岭 7.3 岭岭岭岭 7.4 岭岭岭 k 岭岭岭 7.5 岭岭岭岭岭岭岭岭 7.6 岭岭岭岭岭岭岭

第 7 章 岭回归

  • Upload
    mikel

  • View
    175

  • Download
    0

Embed Size (px)

DESCRIPTION

第 7 章 岭回归. 7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析 7.4 岭参数 k 的选择 7.5 用岭回归选择变量 7.6 本章小结与评注. 一、普通最小二乘估计带来的问题. §7.1 岭回归估计的定义. 当自变量间存在复共线性时,回归系数估计的方差就很大, 估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。. 例 7.1 假设已知 x 1 , x 2 与 y 的关系服从线性回归模型 y =10+2 x 1 +3 x 2 +ε. §7.1 岭回归估计的定义. - PowerPoint PPT Presentation

Citation preview

Page 1: 第 7 章  岭回归

第 7 章 岭回归

7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析7.4 岭参数 k 的选择7.5 用岭回归选择变量7.6 本章小结与评注

Page 2: 第 7 章  岭回归

§7.1 岭回归估计的定义一、普通最小二乘估计带来的问题

当自变量间存在复共线性时,回归系数估计的方差就很大, 估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。

例 7.1 假设已知 x1 , x2 与 y 的关系服从线性回归模型

y=10+2x1+3x2+ε

Page 3: 第 7 章  岭回归

§7.1岭回归估计的定义

Page 4: 第 7 章  岭回归

§7.1岭回归估计的定义

Page 5: 第 7 章  岭回归

§7.1岭回归估计的定义二、岭回归的定义

岭回归 (Ridge Regression, 简记为 RR) 提出的想法是很自然的。 当自变量间存在复共线性时,| X′X|≈ 0 ,我们设想给 X′X加上一个正常数矩阵 kI,( k > 0) ,那么 X′X+kI接近奇异的程度就会比 X′X接近奇异的程度小得多。 考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用 X表示

Page 6: 第 7 章  岭回归

§7.1岭回归估计的定义我们称 yXIXXβ -1)k((k)ˆ

为 β 的岭回归估计,其中 k 称为岭参数。

由于假设 X已经标准化,所以 X′X就是自变量样本相关阵,( 7.2 )式计算的实际是标准化岭回归估计。 ( 7.2 )式中因变量观测向量 y可以经过标准化也可以未经标准化。显然,岭回归做为 β的估计应比最小二乘估计稳定,当 k=0 时的岭回归估计就是普通的最小二乘估计。

( 7.2 )

Page 7: 第 7 章  岭回归

§7.1岭回归估计的定义

k 0 0.1 0.15 0.2 0.3 0.4 0.5 1.0 1.5 2 3

(k)β 1ˆ 11.31 3.48 2.99 2.71 2.39 2.20 2.06 1.66 1.43 1.27 1.03

(k)β 2ˆ -6.59 0.63 1.02 1.21 1.39 1.46 1.49 1.41 1.28 1.17 0.98

表 7.2

Page 8: 第 7 章  岭回归

§7.1岭回归估计的定义

Page 9: 第 7 章  岭回归

§7.2 岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定( 7.2 )式中因变量观测向量 y 未经标准化。

显然只有当k=0时,E[ (0)β ]=β ;当k≠0时, (k)β 是β的有偏估计。

要特别强调的是 (k)β 不再是β的无偏估计了,

有偏性是岭回归估计的一个重要特性。

Page 10: 第 7 章  岭回归

§7.2 岭回归估计的性质 性质2 在认为岭参数k是与y无关的常数时, yXIXXβ -1)k((k)ˆ

是最小二乘估计β的一个线性变换,也是y的线性函数。

因为 yXIXXβ -1)k((k)ˆ = yXXXXXIXX -1-1 )()k(

= βXXIXX ˆ -1)k(

因此,岭估计 (k)β 是最小二乘估计β的一个线性变换,

根据定义式 yXIXXβ -1)k((k)ˆ 知 (k)β 也是y的线性函数。

这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来

确定,因而k也依赖于y,因此从本质上说 (k)β 并非β的线性变换,也不是

y的线性函数。

Page 11: 第 7 章  岭回归

§7.2 岭回归估计的性质 性质3 对任意k>0 ‖, β ‖ ≠0,总有

‖ (k)β ‖ ‖< β ‖

‖这里 ‖ 是向量的模,等于向量各分量的平方和。

这个性质表明 (k)β 可看成由β进行某种向原点的压缩,

从 (k)β 的表达式可以看到,当k→∞时, (k)β →0,

即 (k)β 化为零向量。

Page 12: 第 7 章  岭回归

§7.2 岭回归估计的性质

Page 13: 第 7 章  岭回归

§7.3 岭迹分析

Page 14: 第 7 章  岭回归

§7.3

岭迹分析

Page 15: 第 7 章  岭回归

§7.4 岭参数 k 的选择 一、岭迹法

岭迹法选择 k 值的一般原则是:

( 1 )各回归系数的岭估计基本稳定;( 2 )用最小二乘估计时符号不合理的回归系数,其岭

估计的符号变得合理;( 3 )回归系数没有不合乎经济意义的绝对值;( 4 )残差平方和增大不太多。

Page 16: 第 7 章  岭回归

§7.4 岭参数 k 的选择

Page 17: 第 7 章  岭回归

§7.4 岭参数 k 的选择 二、方差扩大因子法

方差扩大因子cj j度量了多重共线性的严重程度,计算岭估计

(k)β 的协方差阵,得

D( (k)β )=cov( (k)β , (k)β )

=cov((X′ X+kI )-1X′ y,(X′ X+kI )-1X′ y)

=(X′ X+kI )-1X′ cov(y,y)X(X′ X+kI )-1

=σ 2(X′ X+kI )-1X′ X(X′ X+kI )-1

=σ 2(ci j(k))

式中矩阵Cij(k)的对角元 cjj(k)就是岭估计的方差扩大因子。

不难看出,cjj(k)随着k的增大而减少。

选择k使所有方差扩大因子 cjj(k)≤10。

Page 18: 第 7 章  岭回归

§7.4 岭参数 k 的选择 三、由残差平方和来确定 k值

岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和 SSE ( k )的增加幅度控制在一定的限度以内,可以给定一个大于 1 的 c 值,要求:

SSE ( k )< cSSE ( 7.3 )

寻找使( 7.3 )式成立的最大的 k 值。在后边的例子中我们将会看到对该方法的应用。

Page 19: 第 7 章  岭回归

§7.5 用岭回归选择变量岭回归选择变量的原则:

( 1 )在岭回归中设计矩阵 X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。

( 2 )随着 k 的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。 ( 3 )如果依照上述去掉变量的原则,有若干个回归

系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

Page 20: 第 7 章  岭回归

§7.5 用岭回归选择变量例 7.2 空气污染问题。 Mcdonald 和 Schwing 在参考文献[ 18

]中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了 15 个解释变量,收集了 60组样本数据。

x1—Average annual precipitation in inches 平均年降雨量x2—Average January temperature in degrees F 1月份平均气温x3—Same for July 7月份平均气温x4—Percent of 1960 SMSA population aged 65 or older 年龄 65岁以上的人口占总人口的百分比x5—Average household size 每家人口数x6—Median school years completed by those over 22 年龄在 22岁以上的人受教育年限的中位数

Page 21: 第 7 章  岭回归

§7.5 用岭回归选择变量x7—Percent of housing units which are sound & with all facilities 住房符合标准的家庭比例数x8—Population per sq. mile in urbanized areas, 1960 每平方公里人口

数x9—Percent non-white population in urbanized areas, 1960 非白种人占总人口的比例x10—Percent employed in white collar occupations 白领阶层人口比

例x11—Percent of families with income < $3000 收入在 3000美元以下的家庭比例x12—Relative hydrocarbon pollution potential 碳氢化合物的相对污

染势x13— Same for nitric oxides 氮氧化合物的相对污染势x14—Same for sulphur dioxide 二氧化硫的相对污染势x15—Annual average % relative humidity at 1pm 年平均相对湿度y—Total age-adjusted mortality rate per 100,000 每十万人中的死亡人数

Page 22: 第 7 章  岭回归

§7.5 用岭回归选择变量计算 X′X 的 15个特征为:

4.5272 , 2.7547, 2.0545, 1.3487, 1.2227

0.9605, 0.6124, 0.4729, 0.3708, 0.2163

0.1665, 0.1275, 0.1142 , 0.0460, 0.0049

条件数

396.30918.9230049.0/5275.4/ 151 k

注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列 1 ,与用 SPSS 计算结果有所不同

Page 23: 第 7 章  岭回归

§7.5 用岭回归选择变量

Page 24: 第 7 章  岭回归

§7.5 用岭回归选择变量进行岭迹分析 把 15 个回归系数的岭迹画到图 7.4 中,我们可看到,当 k=0.20 时岭迹大体上达到稳定。按照岭迹法,应取 k=0.

2 。 若用方差扩大因子法,因 k=0.18 时,方差扩大因子接近于 1 ,当 k 在 0.02~ 0.08 时,方差扩大因子小于 10 ,故应建议在此范围选取 k 。 由此也看到不同的方法选取 k 值是不同的。

Page 25: 第 7 章  岭回归

§7.5 用岭回归选择变量

在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11 和 x15 有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。 又因为自变量 x12 和 x13 的岭回归系数很不稳定,且随着 k 的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。 再根据第三条原则去掉变量 x3 和 x5 。 这个问题最后剩的变量是 x1 , x2 , x6 , x8 , x9 , x1

4 。

Page 26: 第 7 章  岭回归

§7.5 用岭回归选择变量

例 7.3 Gorman-Torman 例子 (见参考文献[ 2 ] ) 。本例共有 10 个自变量, X 已经中心化和标准化了,X′X 的特征根为: 3.692 , 1.542 , 1.293 , 1.046 , 0.972 , 0.659 , 0.357 , 0.220 , 0.152 , 0.068

最后一个特征根 λ10=0.068 ,较接近于零。

Page 27: 第 7 章  岭回归

§7.5 用岭回归选择变量

368.7294.54068.0/692.3/ 101 k

条件数 k=7.368 < 10 。从条件数的角度看,似乎设计矩阵 X没有复共线性。但下面的研究表明,作岭回归还是必要的。 关于条件数,这里附带说明它的一个缺陷,就是当X′X所有特征根都比较小时,虽然条件数不大,但多重共线性却存在。

Page 28: 第 7 章  岭回归

§7.5 用岭回归选择变量

Page 29: 第 7 章  岭回归

§7.5 用岭回归选择变量

当k从 0上升到0.1 ‖时, (k)β ‖ 2 ‖下降到 (0)β ‖ 2的59%,

而在正交设计的情形只下降17%。这些现象在直观上就使人怀疑

最小二乘估计β是否反映了β的真实情况。

Page 30: 第 7 章  岭回归

§7.5 用岭回归选择变量

Page 31: 第 7 章  岭回归

§7.5 用岭回归选择变量

Page 32: 第 7 章  岭回归

§7.5 用岭回归选择变量

从整体上看,当k达到0.2~0.3的范围时,各个 j (k)已大体上

趋于稳定,因此,在这区间上取一个k值作岭回归可能得到较好的效果。

本例中 5 (k)和 7 (k)当 k从0略增加时,很快趋于0,于是它们很

自然是应该剔除的。去掉它们之后,重作岭回归分析,岭迹基本稳定。

因此去掉x5和x7是合理的。

Page 33: 第 7 章  岭回归

§7.5 用岭回归选择变量

Page 34: 第 7 章  岭回归

§7.5 用岭回归选择变量

例 7.4 用岭回归方法处理民航客运数据的多重共线性问题。

SPSS软件的岭回归功能要用语法命令实现,菜单对话框中没有此功能。运行岭回归程序的步骤如下:

Page 35: 第 7 章  岭回归

§7.5 用岭回归选择变量

1.进入 SPSS软件,录入变量数据或调入已有的数据文件。

2.进入 Syntax语法窗口。方法是依次点选File-New-Syntax 。

3.录入如下的语法命令:INCLUDE 'c:\Program Files\SPSS\Ridge regression.sps'.RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5 .

4.运行。依次点选主菜单的 Run-All.

Page 36: 第 7 章  岭回归

§7.5 用岭回归选择变量

K RSQ X1 X2 X3 X4 X5

.00000 .99823 2.447386 -2.48510 -.083140 .530538 .563537

.05000 .99037 .223417 .179160 -.083524 .370635 .250365

.10000 .98873 .239543 .214116 -.073407 .324407 .227824

.15000 .98729 .243335 .224695 -.065966 .303476 .218969

.20000 .98571 .243539 .228490 -.059635 .290298 .213730

.25000 .98393 .242291 .229504 -.054040 .280606 .209925

.30000 .98195 .240355 .229147 -.049021 .272829 .206823

.35000 .97978 .238068 .228038 -.044482 .266245 .204118

.40000 .97743 .235599 .226490 -.040356 .260473 .201660

.45000 .97493 .233041 .224676 -.036590 .255291 .199367

.50000 .97228 .230447 .222700 -.033141 .250558 .197194

.55000 .96949 .227850 .220626 -.029975 .246181 .195112

.60000 .96659 .225269 .218497 -.027060 .242095 .193102

.65000 .96359 .222719 .216340 -.024372 .238253 .191151

.70000 .96048 .220206 .214174 -.021887 .234619 .189253

.75000 .95729 .217735 .212012 -.019587 .231166 .187400

.80000 .95402 .215309 .209865 -.017453 .227873 .185588

.85000 .95067 .212930 .207737 -.015471 .224721 .183814

.90000 .94726 .210599 .205634 -.013627 .221696 .182075

.95000 .94380 .208316 .203560 -.011910 .218788 .180369

1.0000 .94028 .206080 .201515 -.010308 .215985 .178695

Page 37: 第 7 章  岭回归

§7.5 用岭回归选择变量RIDGE TRACE

K

1.00.75.50.250.00

RR

Coe

ffic

ient

s

3.0000

2.0000

1.0000

0.0000

-1.0000

-2.0000

-3.0000

X5 with K

X4 with K

X3 with K

X2 with K

X1 with K

图 7.6 (a)

Page 38: 第 7 章  岭回归

§7.5 用岭回归选择变量通过上面的分析,我们决定剔除 x1 ,用 y 与其余 4 个自变量做岭回归。把岭参数步长改为 0.02 ,范围减小到 0.2 。这需要增加一句语法程序,点选主菜单的 Window-Syntax Editor返回语法窗口,语法命令如下:INCLUDE 'c:\Program Files\SPSS\Ridge regression.sps'. RIDGEREG DEP=y /ENTER x2 x3 x4 x5

/START=0.0/STOP=0.2/INC=0.02.

Page 39: 第 7 章  岭回归

§7.5 用岭回归选择变量 K RSQ X2 X3 X4 X5

.00000 .99518 -.232694 -.134119 .787697 .516538

.02000 .99273 .191301 -.104683 .518190 .333153

.04000 .99161 .260930 -.097765 .464546 .305788

.06000 .99084 .287851 -.093137 .438607 .295463

.08000 .99012 .301168 -.089162 .422128 .289970

.10000 .98938 .308468 -.085489 .410136 .286374

.12000 .98859 .312599 -.082010 .400676 .283666

.14000 .98773 .314871 -.078687 .392810 .281425

.16000 .98680 .315969 -.075501 .386027 .279453

.18000 .98580 .316284 -.072442 .380023 .277644

.20000 .98474 .316058 -.069503 .374602 .275942

Page 40: 第 7 章  岭回归

§7.5 用岭回归选择变量

RIDGE TRACE

K

.20.15.10.050.00

RR

Co

effi

cie

nts

1.0000

0.0000

-1.0000

X5 with K

X4 with K

X3 with K

X2 with K

图 7.6 (b)

Page 41: 第 7 章  岭回归

§7.5 用岭回归选择变量

选取岭参数 k=0.08 。然后给定 k=0.08 ,重新做岭回归,语法命令如下:INCLUDE 'c:\Program Files\SPSS\Ridge regression.sps'.

RIDGEREG DEP=y /ENTER x2 x3 x4 x5

/k=0.08.

Page 42: 第 7 章  岭回归

§7.5 用岭回归选择变量表7. 4 k=0.08的岭回归

Mul t R .9950480 RSquare .9901205 Adj RSqu .9865280 SE 111.5042453

ANOVA table df SS MS F val ue Sig F Regress 4 13706607 3426651. 6 275.6050375 . 0000000 Resi dual 11 136765. 16 12433.197

B SEB Beta T Sig T X2 .0680451 .0061320 .3011683 11.0967696 . 0000003 X3 - .0077794 .0026574 - .0891621 -2.9274825 . 0137522 X4 17.1686519 1.5487144 .4221279 11.0857441 . 0000003 X5 .2239279 .0322228 .2899703 6.9493613 . 0000243 Constant 424.7925673 262.7290140 .0000000 1.6168468 . 1342035

Page 43: 第 7 章  岭回归

§7.5 用岭回归选择变量

Page 44: 第 7 章  岭回归

§7.5 用岭回归选择变量在第6章中用主成分回归得到含有全部5个自变量的主成分回归方程,现在

计算出含有全部 5个自变量的岭回归做一个比较。根据表 7.2的数据,取岭参数

k=0.10,得岭回归的回归方程

1 2 3 4 5ˆ 323.3 0.034 64 0.048 38 0.006 405 13.19 0.175 9y x x x x x

主成分回归方程为:

1 2 3 4 5ˆ 416.8 0.039 76 0.060 82 0.007 652 11.37 0.162 8y x x x x x

普通最小二乘回归方程为

1 2 3 4 5ˆ 450.9 0.354 0.561 0.0073 21.578 0.435y x x x x x

Page 45: 第 7 章  岭回归

§7.5 用岭回归选择变量【例7.5】 回顾第3章习题 11的问题,建立GDP对第一产业

增加值 x1和第二产业增加值 x2的二元线性回归,得到二元

回归方程 y =2 914.6+0.607 x1+1.709 x2。

合理的 1 的数值应该大于 1。

实际上,x3的年增长幅度大于 x1的年增长幅度,因此合理的 1 的

数值不仅是大于 1,而是要大于2。

Page 46: 第 7 章  岭回归

§7.5 用岭回归选择变量

这个问题产生的原因仍然是存在共线性,在此省略掉计算过程,

得岭参数 k=0.03时岭回归方程为 y = -2 250.6+2.270 x1+1.271 x2,

与普通最小二乘回归方程相差很大。

岭回归系数 1 =2.270与前面的分析是吻合的,其解释是当第二产

业增加值 x2保持不变时,第一产业增加值 x1每增加1亿元GDP增加

2.270亿元,这个解释是合理的。