第 7 章最小二乘估计的改进

第 7 章最小二乘估计的改进

的均方误差是指：

2

)(ˆ

)(ˆ)(ˆ)(ˆ)(

kE

kkEkMSEkH

引理 6.1.1 在Y 服从 ),( 2nn IXN 时，有如下结论：

（1） 122

)'(ˆ

XXtrE

（2） 242

)'(2ˆ

XXtrD

证明： YXXX 1ˆ

XXXX 1 XXX 1

所以有：

ˆˆˆ EMSE

XXXXE 2

EXXXXtr 2

= 12 ' XXtr

若记 ijaXXXXA 2 ，有：

ADD

ˆˆ 22 AEAE

i j

jiijaA

i j k l

lkjiklijaaA 2

当 ),0(~ 2nIN ，此时，有：

niEEEE iiii ,2,1,3,0,,0 44322

n ,, 21 相互独立，从而有：

4 2

2 2 4

3

, ,

, ,

, ,

0

i

i j k l i k

E i j k l

i j k l i k

E E E i k j l i j

i l j k i j

others

i j k l

lkjiklij EaaAE 2

222222242ji

i ki ji jijiijjiijkikkiiiii EEaaEEaEEaaEa

i i i i

iiijii

iiiii aaaaa 222

2

24 23

iij

iii aa 2

2

4 2

2224 AtrtrA

又 AtrAE 2 ，即有

2424 22ˆˆ

XXtrAtrD

设 XX 为 mm 矩阵，又记其特征根为 021 m ,由线性

代数的知识可知，

（1） 1XX 的特征根为 mii ,2,1,1 ；

（2） 2XX 的特征根为 mii ,2,1,1 2 ；

（3）

m

ii

XXtr1 ，

m

iiXX

1

当 XX 病态时， 0XX ，从而存在着某个 i使当 ij 时， j1

将变得很大，又由引理可知：

m

i i

XXtrE1

2122 1

)'(ˆ

m

i i

XXtrD1

2424

2 12)'(2ˆ

由此可知，当 0XX 时，与的差向量的平均长度将变得

很大，且波动也很大，从而表明不再是的一个好的估计了。

对于模型

0 1 1 1,2, ,i i t it iy x x i n

在求最小二乘估计时，要求 X X 的逆矩阵存在。当 X X 的逆矩

阵不存在时，即 ix 之间存在高度相关的情况，我们称之为多重共

线性。

一般经验告诉我们，对于采用时间序列数据作样本、以简单

线性形式建立的计量经济学模型，往往存在多重共线性。以截面

数据作样本时，问题不那么严重，但仍然是存在的。

多重共线性的后果：

完全共线性下参数估计量不唯一；

一般共线性下普通最小二乘法参数估计量非有效；

变量的显著性检验失去意义；

模型的预测功能失效。

（1）样本相关系数检验法

考虑两个解释变量之间的相关系数，若较大，如大于 0.8，

则可认为存在多重共线性问题。

§7.1 多重共线性的判别

（2）条件指数检验法

设 1 2, , , k 为矩阵 X X 的特征根，则条件指数的定义如下：

maxmax

jj

i ii

i

CI k CI

较大的条件指数意味着有较强的多重共线性，在应用中，经验性

地可作如下判断：

多重共线性

轻微若0<k<10

较强若10 k<30

严重若k 30

（3）方差膨胀因子检验法

基于复相关系数 iR 可以定义各个解释变量 iX 的容忍度（TOL ，

tolerance）与方差膨胀因子（VIF，variance inflation factor）如下： 21i iTOL R ，该值越小，意味着变量 iX 不由其余解释变量说

明的部分相对越小，

2

1

1ii

VIFR

，对于不好的试验设计，VIF的取值可能趋于无限

大。

根据经验，我们提出确定多重共线严重程度的一个经验准则：

i

i

i

轻微若maxVI F<5

较强若5 maxVI F<10

严重若maxVI F 10

i

i

i

mi nTOL >0. 2轻微若0. 1<mi nTOL 0. 2较强若

mi nTOL 0. 1严重若

所以，当 0XX 时，用的最小二乘估计建立的回归方

程需要改进。改进的方法有很多，我们介绍其中的二种：

（1）从减少均方误差的角度出发，引入岭估计；

（2）从消除 X 的列向量间的多重其线性关系出发，引入主成

分估计。

在下面讨论中，我们均假设数据已经过了”标准化”变换，记数据为

niyxxx iimii ,2,1,,,, 21

并且：

mjxxn

iij

n

iij ,2,1,1,0

1

2

1

从而 RXX 为相关系数矩阵，其特征要为 021 m ，并且

mm

jj

1

。

§7.2 岭估计定义 1：设 0k ,称

1ˆ( ) mk X X kI X Y

为的岭估计，其中 k为岭参数。由岭估计建立的回归方程称为岭回归。

当 0k 时， YXXX 1)0( 即为的最小二乘估计。

定义 2：对于每个 i，当 ,0k 时， )(ˆ k 的第 i个分量 )(ˆ ki 作为 k的

函数，在直角坐标系下，称由点 )(ˆ, kk i 所构成的曲线为岭迹。

岭估计的性质及几种表示形式：

（1）岭估计是线性估计，但不是无偏估计。

1ˆ( ) m kk X X kI X Y W X Y

其中 1

k mW X X kI ，由此可见，岭估计仍是Y 的线性函数，

所以仍是线性估计。

(2) 1ˆ( ) m kk X X kI X Y W X Y

1 1 ˆ' 'm kX X kI X X X X X Y Z

其中 11 1

'k m mZ X X kI X X I k X X

kZ 与 kW 之间的关系如下：

1

1

k k m m m

m m m k

Z W X X X X kI X X kI kI

I k X X kI I kW

(3)若 XX 的特征根为 021 m ，对应的特征向量为

mlll ,, 21 ，则有 millXX iii ,2,1,

从而由于 , 1, 2,m i i iX X kI l k l i m

则有： 1 1, 1, 2,m i i iX X kI l k l i m ，即有：

milklW iiik ,2,1,1

可知： kW 的特征根为 miki ,2,1,1

(4)由于 millXX iii ,2,1,11

则 11 , 1,2,m i i

i

kI k X X l l i m

从而 11

, 1, 2,im i i

i

I k X X l l i mk

所以有： miil

ki

ilk

Z i ,2,1,

可知： kZ 的特征根为 mik

i

i ,2,1,

(5)并且 kZ 与 kW 之间它们的特征向量与 XX 的特征向量相同，与 k无

关。

(6)记： )()(ˆ)(ˆ)(ˆ kHkkEkMSE

)(ˆ)(ˆ)( kkEkH

)(ˆ)(ˆ)(ˆ)(ˆ)(ˆ)(ˆ kEkEkEkkEkE

)()( 21 krkr

m

ii kDkEkkEkEkr

11 )(ˆ)(ˆ)(ˆ)(ˆ)(ˆ)(

即为岭估计各分量的方差和。

m

i

kEkEkEkr1

2

2 )(ˆ)(ˆ)(ˆ)(

即为岭估计各分量的偏倚平方之和。

定理（岭估计的存在性定理）存在 0k ，使 )0()( HkH

证明：显然，只要证明 )(kH 在 0k 处的导数 0)0( H 即可。

由于 )()()( 21 krkrkH ，故下面分别计算 )(),( 21 krkr 。

2

)(ˆ

)(ˆ)(ˆ)(ˆ)(

kE

kkEkMSEkH

)(ˆ)(ˆ)(ˆ)(ˆ)(1 kEkkEkEkr

kkkk ZZZZE

ˆˆ

ˆˆ

kk ZZE

XXXZZXXXE kk 11

EXXXZZXXXtr kk

11

kk ZZXXtr 12

12k ktr X X X X W I kW

22kk kWWtr

m

i i

m

i i kk

k 12

1

2 11

m

i i

i

k12

2

从而有：

02)(1

32

1

m

i i

i

kkr

若记 2kW 的特征向量为列的矩阵为Q，记以其特征根为对角元

的对角阵为U ，从而有： UQQWk 2

)(ˆ)(ˆ)(2 kEkEkr kk ZZ

k kZ I Z I 22kWk UQQk 2

Uk 2

22

2

mi

i i

kk

其中： mQ ,, 21 与 k无关。

2

22

21

1000

0000

000

001

0

0001

k

k

k

U

m

从而有

2 2 2 2

2 2 3 31 1 1

( ) 2 2 2 0m m m

i i i i

i i ii i i

k kr k k

k k k

02)0()0()0(1

2221

m

iirrH

由 )(kH 的连续性可知，在零的一个邻域内，存在 0k 使

)0()( HkH 。

K 的选择

在实际中， k的值的选取是一个十分重要的问题，

因而引起了不少人的研究，近年来提出了许多确定 k的

原则和方法。下面给出几个常用的选择方法，各有优点

和缺点，目前还尚未找到确定 k的最好方法。

方法一、选择一个较小的 k值，且使对应的回归方程中的回

归系数不再具有不合理的符号及不理想的绝对值。

方法二、由于 )(ˆ k 在减小均方误差的同时增大了残差平方和，从而

可以给定一个 c值（一般 1c ）使：

ˆˆ)(ˆ)(ˆ XYXYckXYkXY

成立的最大的 k值。

方法三、在同一个直角坐标系中画出m条岭迹，找出一个 k

值，使各条岭迹均处于稳定的状态。

方法四、由前面的讨论可知：

22 2

2 21

( )m m

i i

i ii i

H k kk k

由于 2 和未知，故用的最小二乘估计和 2 的无偏估计 2s 代

入，对于不同的 k值计算上式，找出一个 k值，使 )(kH 达到最小。

方法五、迭代法。先用方法四，找出一个 k值 1k 使得 )( 1kH 达到最

小，再用 )(ˆ1k 与 2s 代入

22 2

2 21

( )m m

i i

i ii i

H k kk k

找出一个 2k ，使 )( 2kH 达到最小，直到求得的 k值变化不大为止。

这种方法可以求出较精确的 k值，但计算的工作量太大。

岭迹的作用：

（1）岭迹的一个重要的作用是判断最小二乘估计是否适用

若图中各条岭迹均较稳定，这表明最小二乘估计可能适用。

若图中各条岭迹变化很大，我们可以怀疑最小二乘估计是

否很好地反映了真实情况，此时最小二乘估计可能不适用。

（2）岭迹的另一个很重要的作用是可以用来选择自变量。

若岭迹中 )0( 很大，但随着 k的增加 )(ˆ k 很快地趋于 0，

则这个变量可以删去；

若岭迹中 )0( 很小，但随着 k 的增加 )(ˆ k 绝对值很快增

加，则这个变量应可以保留；

若岭迹图中的两条岭迹并不稳定，但从其形状来看，其和是

稳定的，则可以将这两个变量组合成一个新的变量。

§7.3 主成分估计当 X 的列向量间存在某种多重共线性关系，这种关系往往是

比较复杂的。

为了找出这种多重共线性关系并把它从回归方程中删除，我

们对原变量作线性变换，构造m个新变量 mzzz ,, 21 使得对n个

样本来说某些 jz 的值近似为零。这种 jz 是 mxxx ,, 21 的线性组

合，故它反映了一种多重共线性的关系，而当一个变量各个样本

值近似为零时，该变量对 y来讲影响很小，可将它从方程中删除。

设

),0(~ 2nIN

XY

其中 X 为 mn 矩阵，且各变量均已标准化，从而 RXX 。记

R的特征根为 021 m ，相应的规范化特征向量记作

mlll ,, 21 ，并记

m

m

lllP

,,,

00

00

00

00

212

1

则有 IPP ，且 RPP ，

即 XPXPXPXP

令： XPZ ，则有 ZZ ，其中 Z 是 mn 阵，记

mZZZZ 21 ，其中 jZ 为 1n 向量。

mj

z

z

z

XlZ

nj

j

j

jj

,2,1,2

1

由于数据是标准化数据，所以有

mjzi

ij ,,2,1,0

mjzi

jij ,,2,1,2

mjkkjzzi

ikij ,,2,1,,,0

这说明Z 的各列间正交，且当 0j 时， njjj zzz ,, 21 均近似为 0，

即当特征根近似为零时，由其对应的特征向量分量作为系数构成的

mxxx ,, 21 的线性组合的各样本值近似为零。

称： mjzxlxlxl jmmjjj ,2,1,2211 为第 j个主成分。

它的n个样本值为

1 1 2 2 , 1, 2, , 1,2, .ij j i j i mj imz l x l x l x i n j m

由于其偏差平方和为 j ,因而第一主成分的n个样本值差异最大，第

二个主成分其次，…最后一个主成分的n个样本值差异最小。

当 0XX 时，由于每个 0j ， .,2,1 mj 且

mi

j ，故必存在一个k，使 mkk ,, 21 均近似为

0，从而 mkk zzz ,, 21 对 y无显著影响，这时我们可将原

回归模型简化：

XY

PXP

Z

c c cZ

其中：

m

P

2

1

，

k

c

2

1

， kc ZZZZ 21

c 的最小二乘估计为

kiik

ii

ii

iik

ii

ii

k

cccc

yz

yz

yz

yz

yz

yz

YZZZ

22

11

2

1

1

2

1

1

00

000

00

00

ˆ

即： jiijj yz ˆ ， kj ,2,1 ,

称

mc

c

kkc

c lllP

ˆ

ˆ

ˆˆˆ0

ˆˆ1

2211

为主成分估计。

方程

kk zzzy ˆˆˆˆ 2211 是 y关于 k个主成分的回归方程

再将 mjzxlxlxl jmmjjj ,2,1,2211 代入后有：

mmkkkk

mmmm

xlxlxl

xlxlxlxlxlxly

2211

2222112212211111

ˆ

ˆˆˆ

1 11 2 12 1 1 1 21 2 22 2 2

1 1 2 2

ˆ ˆ ˆ ˆ ˆ ˆ

ˆ ˆ ˆk k k k

m m k mk m

l l l x l l l x

l l l x

1 1 2 2ˆ ˆ ˆc c mc mx x x

这是主成分回归方程。

K 的几种取法：（1）由于 m

ij ，而 j 又反映了第 j个主成分各样本值间的差异，

从而人们可给出一个定值 c， 10 c ，使

cmk

ij

1

， cmk

ij

同时满足。常取 c为 70％以上。

一般称 mj 为第 j个主成分的贡献率， mk

ij 为前 k个主成分的

累计贡献率。

（2）删去 01.0j 的特征根对应的主成分。

（3）由于k

i j1与估计的均方误差有关，有人提出其值不能太

大，建议取 k满足：

kk

i j

51

SAS 中计算相关系数矩阵proc corr 选项；选语句： var 变量名表； with 变量名表 ; …选项除 data=… 外，还有pearson 缺省项计算两两相关系数cov 样本协方差矩阵outp=… 存放样本相关系数矩阵数据

Page 163 例 7.1data p163;input x1 x2 x3 y;cards;149.3 4.2 108.1 15.9161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8190.7 2.2 137.7 20.4202.1 2.1 146.0 22.7212.4 5.6 154.1 26.5226.1 5.0 162.3 28.1231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3;run;proc corr;run;

标准化过程在 SAS 中的实现proc standard 选项；选语句： var 变量名表； …

选项除 data=… 外还有 out= 新数据集mean=…或m=… 指定新变量的均值std=… 指定新变量的标准差

Page 163 例 7.1 数据标准化data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc corr;run;proc standard m=0 std=1 out=std;run;proc print data=std;run;

SAS 中实现共线性诊断proc reg 选项；model y= 自变量 /vif collin;run;

选项 vif 用来输出方差膨胀因子 collin 或 collinoint 用来输出特征根与条件指数。 collin和 collinoint 的区别在于后者对模型中截距项

作了校正。当截距项无显著性时，看由 collin 输出的结果；反之，应看由 collinoint 输出的结果。

Page 163 例 7.1 的共线性分析data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc corr;run;proc standard m=0 std=1 out=std;run;proc print data=std;run;proc reg data=std;model y=x1 x2 x3/vif collinoint;run;

SAS 中实现岭回归proc reg 选项；model y= 自变量 /ridge= 初始值 to 终值 by 步长；plot/ridgeplot;

run;

选项： data= 数据集； outest= 岭回归估计数据集； graphics 绘图功能 outvif 输出 vif

例 7.1 的岭回归data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc standard m=0 std=1 out=std;run;proc reg data=std outest=rrresult graphics outvif;model y=x1 x2 x3/ridge=0 to 0.1 by 0.01;plot/ridgeplot;run;proc print data=rrresult;run;

注：在岭回归以及主成分回归中，若所有自变量以及因变量的量纲一致，则可以不用预先对数据进行标准化处理。

岭迹

取 k=0.04, 可得 page 174 的标准化数据的岭回归方程 .

若在岭回归程序中把 data=std 更换为data=p163, 则可直接得到 page 174 里原始数据的岭回归方程 (page 163例 7.1 中四个变量的量纲都是：十亿法郎 ).

主成分回归在 SAS 中的实现proc reg 选项；model y= 自变量 /pcomit= 给定数字选项；run;

reg 选项有 data= 数据集 , outest= 输出数据集

pcomit=k 表示删除最后面的 k 个主成分model 选项有 outvif 表示输出 vif 到输出数据

集中

例 7.1 的主成分回归data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc standard m=0 std=1 out=std;run;proc reg data=std;model y=x1 x2 x3/vif collinoint;run;proc reg data=std outest=prinresult;model y=x1 x2 x3/pcomit=1 outvif;run;proc print data=prinresult;run;

x1-x3的 vif 都已很小，此时可得到page 180 的回归方程 (7.3.10)

若在主成分回归的程序中把 data=std 更换为data=p163, 则直接可以得到原始数据的主成分回归方程 (7.3.11).

Documents

第 7 章 最小二乘估计的改进

第 7 章最小二乘估计的改进