第七章 非线性回归
两个变数间呈现曲线关系的回归称曲线回归 (curvilinear regression) 或称非线性回归 (non-liner regression)
第一节 非线性关系的类型与特点
一、非线性关系的类型与特点
根据非线性关系的性质和特点可大致分为 6 类:指数形式关系、对数形式关系、幂形式关系、双曲形式关系、型形式关系和多项式形式关系。
( 一 ) 指数关系曲线
两种形式:
bxaey ˆxaby ˆ
a >0,b>0
a >0,b<0x
y
0
( 二 ) 对数关系曲线
xbay lnˆ
b>0
b <0x
y
0
方程为 :
( 三 ) 幂关系曲线baxy ˆ
a>0,0<b<1
a>0,b>1
a >0,b<0
xx
y y
0 0
方程为 :
bxay
1ˆ
x
bxay
ˆ
bxa
xy
ˆ
( 四 ) 双曲关系曲线
b
1
b
a
a>0,b>0
a>0,b<0
xx
y y
0 0
( 五 ) S 型曲线
最著名的曲线是 Logistic 生长曲线,它最早由比利时数学家 P.F.Vehulst 于 1838 年导出,但直至 20 世纪 20 年代才被生物学家及统计学家 R.Pearl 和L.J.Reed 重新发现,并逐渐被人们所发现。目前它已广泛应用于多领域的模拟研究。
第二节 曲线方程的配置
配置曲线回归方程的三个步骤:
1 、根据变数 X 与 Y 之间的确切关系,选择适当的曲线类型。
2 、对选定的曲线类型,在线性化后按最小二乘法原理配置直线回归方程。
3 、将直线回归方程转换成相应的曲线回归方程,并对有关统计参数作出推断。
一、指数曲线方程的配置
bxaey ˆbxay lnˆln
bxay lnˆ
Xy
xyxy
SSSS
SPr
如果: 显著,则计算:
aea ln
xbya ln
xxy SSSPb /
x y lny x y lny
0 100.0 4.6052 45 17.0 2.8332
5 82.0 4.4067 50 14.0 2.6391
10 65.0 4.1744 55 11.0 2.3979
15 52.0 3.9512 60 9.0 2.1872
20 44.0 3.7842 65 7.5 2.0149
25 36.0 3.5835 70 6.0 1.7918
30 30 3.4012 75 5.0 1.6094
35 25.0 3.2189 80 4.0 1.3863
40 21.0 3.0445 85 3.3 1.1939
例如:在测定每升空气中污染物的毫克数( x,mg/L)和透光度 (y) 的关系,得结果见表。试为该资料配置指数曲线方程。
4779.482,2274.19,5.12112 xyyx SPSSSS
90186.2,5.42 yx
9998.02274.195.12112
4779.482
xyr
此相关系数对于 υ=16 ( n=18) 是极显著的,故可计算得:
039833.05.12112/4779.482 b
5948.45.42)039833.0(90186.2ln a
965.985948.4 ea
xey 39833.0965.98ˆ
二、幂函数曲线方程的配置
baxy ˆ
当 x 、 y 都大于 0 时,
xbay lnlnˆln
xxyy ln,ˆln 令
xbay ln
Xy
xyxy
SSSS
SPr
xxy SSSPb /
xbya lnaea ln
如果: 显著。
x y x′=lnx y′=lny
2.0 0.8 0.6931 -0.2231
2.5 2.2 0.9163 0.7885
3.0 5.6 1.0986 1.7228
3.4 9.3 1.2238 2.2300
3.7 14.6 1.3083 2.6810
4.1 20.0 1.4110 2.9957
4.4 28.0 1.4816 3.3322
4.8 33.3 1.5686 3.5056
4.9 38.7 1.5892 3.6558
5.0 42.7 1.6094 3.7542
例如:研究 30 个粉尘颗粒的平均宽度( x,mm )和重量( y,mg )的关系,得表。试做回归分析。
可见,二者呈明显的对数关系。
6809.3,8815.15,8578.0 xyyx SPSSSS
4443.2,2900.1 yx
9973.08815.158578.0
6809.3
xyr
此相关系数对于 υ=16 ( n=18) 是极显著的,故可计算得:
2911.48578.0/6809.3 b
0913.329.12911.44443.2ln a
0454.00913.3 ea
xy 2911.40913.3ˆ
2911.40454.0ˆ xy
三、 Logistic 曲线方程的配置
)均、、 0(1
kbaae
ky
bx
为 Logistic 曲线方程,式中 k 为未知常数。必须首先确定 k 值。
11/1bxaeky
21/2bxaeky
31/3bxaeky
若令
231
2
xxx
可得:
31
22
3213122 2
yyy
yyyyyyk
方程移项并取自然对数得:
bxay
yk
lnln
若令
y
yky ln 可得直线回归方程:
aea ln
xbya ln
xxy SSSPb /
bxay lnˆ
xy
xyxy
SSSS
SPr
如 显著
例如:某股票上市后不同天数下的开盘价格(元)于下表 7.8 。试用 Logistic 方程描述股票价格与上市天数的关系。
x y (k-y)/y y′=ln((k-y)/y)
0 0.30 60.60533 4.10438
3 0.72 24.66889 3.20554
6 3.31 4.58357 1.52248
9 9.71 0.90336 -0.10164
12 13.09 0.41189 -0.88701
15 16.85 0.09683 -3.24738
18 17.79 0.03888 -3.24738
21 18.23 0.01380 -4.28298
24 18.43 0.00280 -5.87821
做散点图。可见二者呈明显的型曲线关系。
4816.18
43.183.009.13
43.1809.133.0243.183.009.1322
2
3122
3212122
yyy
yyyyyyk
先估计终极量 k,取开花后 0 天、 12 天和 24天的结果代入,可得:
获得 k 后,可令
y
yky ln 并将
y
y4816.18ln 分别列于表中。
对 y′ 和 x进行线性回归分析, 5 个二级数据为:
相关系数为:
9972.01968.92540
507.222
xyr
此相关系数对 υ=7 ( n=9) 为显著,所以表中资料以 Logistic 方程描述是合适的。进而可得:
87773.0,12,507.222,1968.92,540 yxSPSSSSx xyy
06685.412412049.087773.0ln a
3731.5806685.4 ea
412049.0540/)507.222( b
xey
412049.03731.581
4816.18ˆ
第三节 多项式回归
(一)多项式回归方程式
当两个变数间的曲线关系很难确定时,可以适应多项式去逼近,称为多项式回归( polynomial regression) 。
最简单的是二次多项式,其方程为:2
21ˆ xbxbay
它的图象是抛物线。当 b2> 0 时,曲线凹向上,有一个极小值; b2 < 0 时,曲线凸向上,有一个极大值。
它的图形具有两个弯曲(一个极大值和一个极小值)和一个拐点的曲线。当 b3> 0 时,曲线由凸向上转为凹向上; b3 < 0 时,曲线由凹向上转为凸向上。
三次多项式的方程为:3
32
21ˆ xbxbxbay
多项式方程的一般形式为:k
kk xbxbxbay 221ˆ
是一个具有 k-1 个弯曲( k-1 个极值)和 k-2 个拐点的曲线。
(二)多项式方程次数的初步确定
两个变数的 n 对观察值配置多项式方程时,最多可配到 k=n-1次多项式。 K越大,包含的统计数越多,计算和解释越复杂。一个多项式回归方程应取多少次为宜,可根据资料的散点图作出选择。散点所表现的曲线趋势的峰数 +谷数 +1
(三)多项式回归统计数的计算
一般采用类似于多元线性回归的方法求解多项式回归的统计数
kkk
kk
xbxbxbay
xxxxxx
2211
221
ˆ
,,,, 则该式可化为:若令
这是一般的多元线性回归方程。
nnn
k
k
knnn
k
k
y
y
y
Y
xx
xxx
xxx
xxx
xxx
xxx
X
2
1
211
1221212
1121111
21
22212
12111
1
1
1
1
1
1
和
统计数。获得相应的多项式回归,并由和、求得 YXXXbXXYXXX 11
x y
3.37 349
4.12 374
4.87 388
5.62 395
6.37 401
7.12 397
7.87 384
例 7.8 ,测定每亩施肥量(斤)和每亩产量 (kg) 的关系,得结果于下表。试建立多项式回归方程。
从散点图看。呈单峰趋势,没有明显的凹凸变化,故预期可用二次式配合。
384
374
349
,
9369.6187.71
9744.1612.41
3569.1137.31
YX
96825397.5
89269841.74
03532698.165
76.92170
56.15229
2688
03762493.042290417.010370464.1
42290417.081693498.476246560.12
10370464.17646560.1252472939.341 YXXXb
至此即获得了二元线性回归方程:
212 96825397.589269841.7403532698.165ˆ xxy
二、多项式回归的假设检验
(一)多项式回归关系的假设检验
(三)各次分量项的假设检验