Upload
taariq
View
196
Download
0
Embed Size (px)
DESCRIPTION
第 7 章 最小二乘估计的改进. §7.1 多重共线性的判别. §7.2 岭估计. K 的选择. 岭迹的作用:. §7.3 主成分估计. K 的几种取法:. SAS 中计算相关系数矩阵. proc corr 选项; 选语句: var 变量名表; with 变量名表 ; … 选项除 data=… 外,还有 pearson 缺省项 计算两两相关系数 cov 样本协方差矩阵 outp=… 存放样本相关系数矩阵数据. - PowerPoint PPT Presentation
Citation preview
第 7 章 最小二乘估计的改进
的均方误差是指:
2
)(ˆ
)(ˆ)(ˆ)(ˆ)(
kE
kkEkMSEkH
引理 6.1.1 在Y 服从 ),( 2nn IXN 时,有如下结论:
(1) 122
)'(ˆ
XXtrE
(2) 242
)'(2ˆ
XXtrD
证明: YXXX 1ˆ
XXXX 1 XXX 1
所以有:
ˆˆˆ EMSE
XXXXE 2
EXXXXtr 2
= 12 ' XXtr
若记 ijaXXXXA 2 ,有:
ADD
ˆˆ 22 AEAE
i j
jiijaA
i j k l
lkjiklijaaA 2
当 ),0(~ 2nIN ,此时,有:
niEEEE iiii ,2,1,3,0,,0 44322
n ,, 21 相互独立,从而有:
4 2
2 2 4
3
, ,
, ,
, ,
0
i
i j k l i k
E i j k l
i j k l i k
E E E i k j l i j
i l j k i j
others
i j k l
lkjiklij EaaAE 2
222222242ji
i ki ji jijiijjiijkikkiiiii EEaaEEaEEaaEa
i i i i
iiijii
iiiii aaaaa 222
2
24 23
iij
iii aa 2
2
4 2
2224 AtrtrA
又 AtrAE 2 ,即有
2424 22ˆˆ
XXtrAtrD
设 XX 为 mm 矩阵,又记其特征根为 021 m ,由线性
代数的知识可知,
(1) 1XX 的特征根为 mii ,2,1,1 ;
(2) 2XX 的特征根为 mii ,2,1,1 2 ;
(3)
m
ii
XXtr1 ,
m
iiXX
1
当 XX 病态时, 0XX ,从而存在着某个 i使当 ij 时, j1
将变得很大,又由引理可知:
m
i i
XXtrE1
2122 1
)'(ˆ
m
i i
XXtrD1
2424
2 12)'(2ˆ
由此可知,当 0XX 时, 与 的差向量的平均长度将变得
很大,且波动也很大,从而表明 不再是 的一个好的估计了。
对于模型
0 1 1 1,2, ,i i t it iy x x i n
在求最小二乘估计时,要求 X X 的逆矩阵存在。当 X X 的逆矩
阵不存在时,即 ix 之间存在高度相关的情况,我们称之为多重共
线性。
一般经验告诉我们,对于采用时间序列数据作样本、以简单
线性形式建立的计量经济学模型,往往存在多重共线性。以截面
数据作样本时,问题不那么严重,但仍然是存在的。
多重共线性的后果:
完全共线性下参数估计量不唯一;
一般共线性下普通最小二乘法参数估计量非有效;
变量的显著性检验失去意义;
模型的预测功能失效。
(1)样本相关系数检验法
考虑两个解释变量之间的相关系数,若较大,如大于 0.8,
则可认为存在多重共线性问题。
§7.1 多重共线性的判别
(2)条件指数检验法
设 1 2, , , k 为矩阵 X X 的特征根,则条件指数的定义如下:
maxmax
jj
i ii
i
CI k CI
较大的条件指数意味着有较强的多重共线性,在应用中,经验性
地可作如下判断:
多重共线性
轻微 若0<k<10
较强 若10 k<30
严重 若k 30
(3)方差膨胀因子检验法
基于复相关系数 iR 可以定义各个解释变量 iX 的容忍度(TOL ,
tolerance)与方差膨胀因子(VIF,variance inflation factor)如下: 21i iTOL R ,该值越小,意味着变量 iX 不由其余解释变量说
明的部分相对越小,
2
1
1ii
VIFR
,对于不好的试验设计,VIF的取值可能趋于无限
大。
根据经验,我们提出确定多重共线严重程度的一个经验准则:
i
i
i
轻微 若maxVI F<5
较强 若5 maxVI F<10
严重 若maxVI F 10
i
i
i
mi nTOL >0. 2轻微 若0. 1<mi nTOL 0. 2较强 若
mi nTOL 0. 1严重 若
所以,当 0XX 时,用 的最小二乘估计建立的回归方
程需要改进。改进的方法有很多,我们介绍其中的二种:
(1) 从减少均方误差的角度出发,引入岭估计;
(2) 从消除 X 的列向量间的多重其线性关系出发,引入主成
分估计。
在下面讨论中,我们均假设数据已经过了”标准化”变换,记数据为
niyxxx iimii ,2,1,,,, 21
并且:
mjxxn
iij
n
iij ,2,1,1,0
1
2
1
从而 RXX 为相关系数矩阵,其特征要为 021 m ,并且
mm
jj
1
。
§7.2 岭估计定义 1:设 0k ,称
1ˆ( ) mk X X kI X Y
为 的岭估计,其中 k为岭参数。由岭估计建立的回归方程称为岭回归。
当 0k 时, YXXX 1)0( 即为 的最小二乘估计。
定义 2:对于每个 i,当 ,0k 时, )(ˆ k 的第 i个分量 )(ˆ ki 作为 k的
函数,在直角坐标系下,称由点 )(ˆ, kk i 所构成的曲线为岭迹。
岭估计的性质及几种表示形式:
(1) 岭估计是线性估计,但不是无偏估计。
1ˆ( ) m kk X X kI X Y W X Y
其中 1
k mW X X kI ,由此可见,岭估计仍是Y 的线性函数,
所以仍是线性估计。
(2) 1ˆ( ) m kk X X kI X Y W X Y
1 1 ˆ' 'm kX X kI X X X X X Y Z
其中 11 1
'k m mZ X X kI X X I k X X
kZ 与 kW 之间的关系如下:
1
1
k k m m m
m m m k
Z W X X X X kI X X kI kI
I k X X kI I kW
(3)若 XX 的特征根为 021 m ,对应的特征向量为
mlll ,, 21 ,则有 millXX iii ,2,1,
从而由于 , 1, 2,m i i iX X kI l k l i m
则有: 1 1, 1, 2,m i i iX X kI l k l i m ,即有:
milklW iiik ,2,1,1
可知: kW 的特征根为 miki ,2,1,1
(4)由于 millXX iii ,2,1,11
则 11 , 1,2,m i i
i
kI k X X l l i m
从而 11
, 1, 2,im i i
i
I k X X l l i mk
所以有: miil
ki
ilk
Z i ,2,1,
可知: kZ 的特征根为 mik
i
i ,2,1,
(5)并且 kZ 与 kW 之间它们的特征向量与 XX 的特征向量相同,与 k无
关。
(6)记: )()(ˆ)(ˆ)(ˆ kHkkEkMSE
)(ˆ)(ˆ)( kkEkH
)(ˆ)(ˆ)(ˆ)(ˆ)(ˆ)(ˆ kEkEkEkkEkE
)()( 21 krkr
m
ii kDkEkkEkEkr
11 )(ˆ)(ˆ)(ˆ)(ˆ)(ˆ)(
即为岭估计各分量的方差和。
m
i
kEkEkEkr1
2
2 )(ˆ)(ˆ)(ˆ)(
即为岭估计各分量的偏倚平方之和。
定理(岭估计的存在性定理)存在 0k ,使 )0()( HkH
证明: 显然,只要证明 )(kH 在 0k 处的导数 0)0( H 即可。
由于 )()()( 21 krkrkH ,故下面分别计算 )(),( 21 krkr 。
2
)(ˆ
)(ˆ)(ˆ)(ˆ)(
kE
kkEkMSEkH
)(ˆ)(ˆ)(ˆ)(ˆ)(1 kEkkEkEkr
kkkk ZZZZE
ˆˆ
ˆˆ
kk ZZE
XXXZZXXXE kk 11
EXXXZZXXXtr kk
11
kk ZZXXtr 12
12k ktr X X X X W I kW
22kk kWWtr
m
i i
m
i i kk
k 12
1
2 11
m
i i
i
k12
2
从而有:
02)(1
32
1
m
i i
i
kkr
若记 2kW 的特征向量为列的矩阵为Q,记以其特征根为对角元
的对角阵为U ,从而有: UQQWk 2
)(ˆ)(ˆ)(2 kEkEkr kk ZZ
k kZ I Z I 22kWk UQQk 2
Uk 2
22
2
mi
i i
kk
其中: mQ ,, 21 与 k无关。
2
22
21
1000
0000
000
001
0
0001
k
k
k
U
m
从而有
2 2 2 2
2 2 3 31 1 1
( ) 2 2 2 0m m m
i i i i
i i ii i i
k kr k k
k k k
02)0()0()0(1
2221
m
iirrH
由 )(kH 的连续性可知,在零的一个邻域内,存在 0k 使
)0()( HkH 。
K 的选择
在实际中, k的值的选取是一个十分重要的问题,
因而引起了不少人的研究,近年来提出了许多确定 k的
原则和方法。下面给出几个常用的选择方法,各有优点
和缺点,目前还尚未找到确定 k的最好方法。
方法一、选择一个较小的 k值,且使对应的回归方程中的回
归系数不再具有不合理的符号及不理想的绝对值。
方法二、由于 )(ˆ k 在减小均方误差的同时增大了残差平方和,从而
可以给定一个 c值(一般 1c )使:
ˆˆ)(ˆ)(ˆ XYXYckXYkXY
成立的最大的 k值。
方法三、在同一个直角坐标系中画出m条岭迹,找出一个 k
值,使各条岭迹均处于稳定的状态。
方法四、由前面的讨论可知:
22 2
2 21
( )m m
i i
i ii i
H k kk k
由于 2 和 未知,故用 的最小二乘估计 和 2 的无偏估计 2s 代
入,对于不同的 k值计算上式,找出一个 k值,使 )(kH 达到最小。
方法五、迭代法。先用方法四,找出一个 k值 1k 使得 )( 1kH 达到最
小,再用 )(ˆ1k 与 2s 代入
22 2
2 21
( )m m
i i
i ii i
H k kk k
找出一个 2k ,使 )( 2kH 达到最小,直到求得的 k值变化不大为止。
这种方法可以求出较精确的 k值,但计算的工作量太大。
岭迹的作用:
(1)岭迹的一个重要的作用是判断最小二乘估计是否适用
若图中各条岭迹均较稳定,这表明最小二乘估计可能适用。
若图中各条岭迹变化很大,我们可以怀疑最小二乘估计是
否很好地反映了真实情况,此时最小二乘估计可能不适用。
(2)岭迹的另一个很重要的作用是可以用来选择自变量。
若岭迹中 )0( 很大,但随着 k的增加 )(ˆ k 很快地趋于 0,
则这个变量可以删去;
若岭迹中 )0( 很小,但随着 k 的增加 )(ˆ k 绝对值很快增
加,则这个变量应可以保留;
若岭迹图中的两条岭迹并不稳定,但从其形状来看,其和是
稳定的,则可以将这两个变量组合成一个新的变量。
§7.3 主成分估计 当 X 的列向量间存在某种多重共线性关系,这种关系往往是
比较复杂的。
为了找出这种多重共线性关系并把它从回归方程中删除,我
们对原变量作线性变换,构造m个新变量 mzzz ,, 21 使得对n个
样本来说某些 jz 的值近似为零。这种 jz 是 mxxx ,, 21 的线性组
合,故它反映了一种多重共线性的关系,而当一个变量各个样本
值近似为零时,该变量对 y来讲影响很小,可将它从方程中删除。
设
),0(~ 2nIN
XY
其中 X 为 mn 矩阵,且各变量均已标准化,从而 RXX 。记
R的特征根为 021 m ,相应的规范化特征向量记作
mlll ,, 21 ,并记
m
m
lllP
,,,
00
00
00
00
212
1
则有 IPP ,且 RPP ,
即 XPXPXPXP
令: XPZ ,则有 ZZ ,其中 Z 是 mn 阵,记
mZZZZ 21 ,其中 jZ 为 1n 向量。
mj
z
z
z
XlZ
nj
j
j
jj
,2,1,2
1
由于数据是标准化数据,所以有
mjzi
ij ,,2,1,0
mjzi
jij ,,2,1,2
mjkkjzzi
ikij ,,2,1,,,0
这说明Z 的各列间正交,且当 0j 时, njjj zzz ,, 21 均近似为 0,
即当特征根近似为零时,由其对应的特征向量分量作为系数构成的
mxxx ,, 21 的线性组合的各样本值近似为零。
称: mjzxlxlxl jmmjjj ,2,1,2211 为第 j个主成分。
它的n个样本值为
1 1 2 2 , 1, 2, , 1,2, .ij j i j i mj imz l x l x l x i n j m
由于其偏差平方和为 j ,因而第一主成分的n个样本值差异最大,第
二个主成分其次,…最后一个主成分的n个样本值差异最小。
当 0XX 时,由于每个 0j , .,2,1 mj 且
mi
j ,故必存在一个k,使 mkk ,, 21 均近似为
0,从而 mkk zzz ,, 21 对 y无显著影响,这时我们可将原
回归模型简化:
XY
PXP
Z
c c cZ
其中:
m
P
2
1
,
k
c
2
1
, kc ZZZZ 21
c 的最小二乘估计为
kiik
ii
ii
iik
ii
ii
k
cccc
yz
yz
yz
yz
yz
yz
YZZZ
22
11
2
1
1
2
1
1
00
000
00
00
ˆ
即: jiijj yz ˆ , kj ,2,1 ,
称
mc
c
kkc
c lllP
ˆ
ˆ
ˆˆˆ0
ˆˆ1
2211
为主成分估计。
方程
kk zzzy ˆˆˆˆ 2211 是 y关于 k个主成分的回归方程
再将 mjzxlxlxl jmmjjj ,2,1,2211 代入后有:
mmkkkk
mmmm
xlxlxl
xlxlxlxlxlxly
2211
2222112212211111
ˆ
ˆˆˆ
1 11 2 12 1 1 1 21 2 22 2 2
1 1 2 2
ˆ ˆ ˆ ˆ ˆ ˆ
ˆ ˆ ˆk k k k
m m k mk m
l l l x l l l x
l l l x
1 1 2 2ˆ ˆ ˆc c mc mx x x
这是主成分回归方程。
K 的几种取法: (1)由于 m
ij ,而 j 又反映了第 j个主成分各样本值间的差异,
从而人们可给出一个定值 c, 10 c ,使
cmk
ij
1
, cmk
ij
同时满足。常取 c为 70%以上。
一般称 mj 为第 j个主成分的贡献率, mk
ij 为前 k个主成分的
累计贡献率。
(2)删去 01.0j 的特征根对应的主成分。
(3)由于k
i j1与估计的均方误差有关,有人提出其值不能太
大,建议取 k满足:
kk
i j
51
SAS 中计算相关系数矩阵proc corr 选项;选语句: var 变量名表; with 变量名表 ; …选项除 data=… 外,还有pearson 缺省项 计算两两相关系数cov 样本协方差矩阵outp=… 存放样本相关系数矩阵数据
Page 163 例 7.1data p163;input x1 x2 x3 y;cards;149.3 4.2 108.1 15.9161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8190.7 2.2 137.7 20.4202.1 2.1 146.0 22.7212.4 5.6 154.1 26.5226.1 5.0 162.3 28.1231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3;run;proc corr;run;
标准化过程在 SAS 中的实现proc standard 选项;选语句: var 变量名表; …
选项除 data=… 外 还有 out= 新数据集mean=…或m=… 指定新变量的均值std=… 指定新变量的标准差
Page 163 例 7.1 数据标准化data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc corr;run;proc standard m=0 std=1 out=std;run;proc print data=std;run;
SAS 中实现共线性诊断proc reg 选项;model y= 自变量 /vif collin;run;
选项 vif 用来输出方差膨胀因子 collin 或 collinoint 用来输出特征根与条件指数。 collin和 collinoint 的区别在于后者对模型中截距项
作了校正。当截距项无显著性时,看由 collin 输出的结果;反之,应看由 collinoint 输出的结果。
Page 163 例 7.1 的共线性分析data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc corr;run;proc standard m=0 std=1 out=std;run;proc print data=std;run;proc reg data=std;model y=x1 x2 x3/vif collinoint;run;
SAS 中实现岭回归proc reg 选项;model y= 自变量 /ridge= 初始值 to 终值 by 步长;plot/ridgeplot;
run;
选项: data= 数据集; outest= 岭回归估计数据集; graphics 绘图功能 outvif 输出 vif
例 7.1 的岭回归data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc standard m=0 std=1 out=std;run;proc reg data=std outest=rrresult graphics outvif;model y=x1 x2 x3/ridge=0 to 0.1 by 0.01;plot/ridgeplot;run;proc print data=rrresult;run;
注:在岭回归以及主成分回归中,若所有自变量以及因变量的量纲一致,则可以不用预先对数据进行标准化处理。
岭迹
取 k=0.04, 可得 page 174 的标准化数据的岭回归方程 .
若在岭回归程序中把 data=std 更换为data=p163, 则可直接得到 page 174 里原始数据的岭回归方程 (page 163例 7.1 中四个变量的量纲都是:十亿法郎 ).
主成分回归在 SAS 中的实现proc reg 选项;model y= 自变量 /pcomit= 给定数字 选项;run;
reg 选项有 data= 数据集 , outest= 输出数据集
pcomit=k 表示删除最后面的 k 个主成分model 选项有 outvif 表示输出 vif 到输出数据
集中
例 7.1 的主成分回归data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc standard m=0 std=1 out=std;run;proc reg data=std;model y=x1 x2 x3/vif collinoint;run;proc reg data=std outest=prinresult;model y=x1 x2 x3/pcomit=1 outvif;run;proc print data=prinresult;run;
x1-x3的 vif 都已很小,此时可得到page 180 的回归方程 (7.3.10)
若在主成分回归的程序中把 data=std 更换为data=p163, 则直接可以得到原始数据的主成分回归方程 (7.3.11).