概率统计模型

概率统计模型

传送系统的效率报童的诀窍航空公司的预订票策略软件开发人员的薪金教学评估

概率模型现实世界的变化受着众多因素的影响，包括确定的和随

机的。如果从建模的背景、目的和手段看，主要因素是确定的，随机因素可以忽略，或者随机因素的影响可以简单地以平均值的作用出现，那么就能够建立确定性模型。如果随机因素对研究对象的影响必须考虑，就应建立随机模型。本章讨论如何用随即变量和概率分布描述随机因素的影响，建立随机模型 -- 概率模型。

统计模型如果由于客观事物内部规律的复杂性及人们认识程度的限

制，无法分析实际对象内在的因果关系，建立合乎机理规律的模型，那么通常要搜集大量的数据，基于对数据的统计分析建立模型，这就是本章还要讨论的用途非常广泛的一类随机模型—统计回归模型。

一传送系统的效率

在机械化生产车间里，排列整齐的工作台旁工人们紧张的生产同一种产品，工作台上放一条传送带在运转，带上设置若干钩子，工人将产品挂在经过他上方的钩子上带走，如图。当生产进入稳定状态后，每个工人生产一件产品所需时间是不变的，而他挂产品的时刻是随机的。衡量这种传送系统的效率可以看他能否及时把工人的产品带走。在工人数目不变的情况下传送带速度越快，带上钩子越多，效率越高。

要求构造衡量传送系统效率的指标，并在简化假设下建立模型描述这个指标与工人数目、钩子数量等参数的关系。

……

……

传送带

挂钩

工作台

1 模型分析为了用传送带及时带走的产品数量来表示传送系统的效率，在工人生产周期（即生产一件产品的时间）相同的情况下，需要假设工人生产出一件产品后，要么恰好有空钩子经过工作台，他可以将产品挂上带走，要么没有空钩子经过，他将产品放下并立即投入下一件产品的生产，以保证整个系统周期性的运转。

工人生产周期相同，但由于各种因素的影响，经过相当长的时间后，他们生产完一件产品的时刻会不一致，认为是随机的，并在一个生产周期内任一时刻的可能性一样。

由上分析，传送系统长期运转的效率等价于一周期的效率，而一周期的效率可以用它在一周期内能带走的产品数与一周期内生产的全部产品数之比来描述。

2 模型假设

3 ）在一周期内有个钩子通过每一工作台上方，钩子均匀排列，到达第一个工作台上方的钩子都是空的。

m

4 ）每个工人在任何时刻都能触到一只钩子，且之能触到一只，在他生产出一件产品的瞬间，如果他能触到的钩子是空的，则可将产品挂上带走；如果非空，则他只能将产品放下。放下的产品就永远退出这个传送系统。

1 ）有 n 个工人，其生产是独立的，生产周期是常数，个工作台均匀排列。n

2 ）生产已进入稳态，即每个工人生产出一件产品的时刻在一个周期内是等可能性的。

3 模型建立将传送系统效率定义为一周期内带走的产品数与生产的全部产品数之比，记作，设带走的产品数为 , 生产的全部产品数为，则。需求出。

D

得到的步骤如下：（均对一周期而言）任一只钩子被一名工人触到的概率是；任一只钩子不被一名工人触到的概率是；由工人生产的独立性，任一只钩子不被所有个工人挂上产品的概率，即任一只钩子为空钩的概率是；任一只钩子非空的概率是。

sn nsD / s

如果从工人的角度考虑，分析每个工人能将自己的产品挂上钩子的概率，这与工人所在的位置有关（如第 1 个工人一定可挂上），这样使问题复杂化。我们从钩子角度考虑，在稳定状态下钩子没有次序，处于同等地位。若能对一周期内的只钩子求出每只钩子非空的概率，则。

mp mps

p

m/1

m/11n

n

m

11

n

mp

111

传送系统的效率指标为

n

mn

m

n

mpD

111

m n为了得到比较简单的结果，在钩子数相对于工人数较大，即较小的情况下，将多项式展开后只取前 3

项，则有m

n n

m

11

m

n

m

nn

m

n

n

mD

2

11

2

111

2

如果将一周期内未带走的产品数与全部产品数之比记作 E再假定 1n ，则

m

nEED

2,1

当 40,10 mn 时，上式给出的结果为 %5.87D用 D 的精确表达式计算得 %4.89D

4 模型评价这个模型是在理想情况下得到的，其中一些假设，如生产周期不变，挂不上钩子的产品退出系统等是不现实的，但模型的意义在于，一方面利用基本合理的假设将问题简化到能够建模的程度，并用简单的方法得到结果；另一方面所得到的简化结果具有非常简单的意义：指标

DE 1与n成正比，与m成反比。通常工人数目n是固定的，一周期内通过的钩子数增加一倍，可使“效率” 降低一倍。

m E

思考：如何改进模型使“效率”降低？

（可理解为相反意义的效率）

考虑通过增加钩子数来使效率降低的方法：在原来放置一只钩子处放置的两只钩子成为一个钩对。一周期内通过 m个钩对，任一钩对被任意工人触到的概率

mp /1 ，不被触到的概率 pq 1 ，于是任一钩对为空的概率是 nq ，钩对上只挂一件产品的概率是

1nnpq ，一周期内通过的 m2 个钩子中，空钩的平均数是 12 nn npqqm

带走产品的平均数是 122 nn npqqmm

未带走产品的平均数是 122 nn npqqmmn

按照上一模型的定义，有

11

11

12211nn

mm

n

mn

mDE

n

m

11 和

11

1

n

m的近似展开，可得

2

2

2 66

21

m

n

m

nnE

n

m

11 展开取 4项，

11

1

n

m展开取 3项。而上一模

型中的方法有m

nE

41 有1EE

m

n

3

2

当3

2nm 时， 1 ，所以该模型提供的方法比上一个模型好。

注意：

利用

二报童的诀窍问题：报童每天清晨从报社购进报纸零售，晚上将没有卖掉的

报纸退回。设报纸每份的购进价为 b ，零售价为 a ，退回价为 c ，假设 a>b>c 。即报童售出一份报纸赚 a-b ，退回一份赔b-c 。报童每天购进报纸太多，卖不完会赔钱；购进太少，不够卖会少挣钱。试为报童筹划一下每天购进报纸的数量，以获得最大收入。

模型分析：购进量由需求量确定，需求量是随机的。假定报童已通过自己的经验或其他渠道掌握了需求量的随机规律，即在他的销受范围内每天报纸的需求量为份的概率是r rf ,2,1,0r有了和 rf cba ,, 就可以建立关于购进量的优化模型。

模型建立：假设每天购进量是 n份，需求量 r是随机的，r可以小于，等于或大于n，所以报童每天的收入也是随机的。那么，作为优化模型的目标函数，不能取每天的收入，而取长期卖报（月，年）的日平均收入。从概率论大数定律的观点看，这相当于报童每天收入的期望值，简称平均收入。记报童每天购进 n份报纸的平均收入为 nG ，如果这天的需求量 nr ，则售出 r份，退回 rn 份；如果需求量 nr 则 n份将全部售出。需求量为 r的概率是 rf ，则

n

r nr

rnfbarfrncbrbanG0 1

问题归结为在 cbarf ,,, 已知时，求 n使 nG 最大。

模型求解：

n

drrpcbnnpbadn

dG0

通常需求量

r

和购进量 n 都相当大，将 r 视为连续变量便于分析和计算，这时概率 rf 转化为概率密度函数 rp

n

ndrrnpbadrrprncbrbanG

0

计算

drrpbadrrpcb

drrpbannpba

n

n

n

0

则

令

使报童日平均收入达到最大的购进量

0dn

dG ，得到 cb

ba

drrp

drrp

n

n

0

n应满足上式。因为

ca

badrrp

n

0 1

0

drrp ，所以

根据需求量的概率密度 rp 的图形可以确定购进量 n在图中用 21,PP 分别表示曲线 rp下的两块面积，则

cb

ba

P

P

2

1

rp

O n r1P 2P

因为当购进

超过

n份报纸时， drrpPn

01 是需求量 r不超过n的概率，即卖不完的概率； drrpP

n

2 是需求量 rn的概率，即卖完的概率，所以上式表明，购进的份数

n应该使卖不完与卖完的概率之比，恰好等于卖出一份赚的钱

ba 与退回一份赔的钱 cb 之比。结论：当报童与报社签订的合同使报童每份赚钱与赔钱之比约大时，报童购进的份数就应该越多。练习：利用上述模型计算，若每份报纸的购进价为 0.75 元，售出价为1 元，退回价为 0.6 元，需求量服从均值 500 份，均方差 50份的正态分布，报童每天应购进多少份报纸才能使平均收入最高，最高收入是多少？

三航空公司的预订票策略

1 问题的提出

有时在机场会出现一些乘客本已订好了某家航空公司的某趟航班，却被意外地告知此趟航班已满，航空公司将为他们预定稍后的航班的情况。这不但会引起乘客的不便，还会加剧他们对航空公司的抱怨程度。在如今这个使用计算机系统来实行订票的时代，是否可以通过设计某种系统来抑制这类事件的发生。试建立一个面对航空公司订票决策的数学模型。

2 符号约定

f —— 维持航班的总费用（成本）n —— 乘坐航班的乘客数量g —— 每名乘客支付的运费（机票票价）N —— 航班的满舱载客数量k —— 误机的乘客数 —— k 人误机的概率kP

m —— 预定航班的乘客数量S —— 航班的收支差额b —— 安置一名剩余乘客的费用p —— 订票乘客登机的概率q —— 订票乘客误机的概率（ 1-p ）j —— 航班卖出折价票的数量r —— 航班票价的折扣率

3 建模目标

建立一个面对航空公司订票决策的数学模型。

航空公司制定超客订票策略，是为了从航班中获得尽可能大的利润。顺着这条脉络，很自然地以求出航空公司期待从一趟预定航班中获得的利润来建立模型。

1 ）初步建模（从简单情形入手）首先，摒除对所求利润带来复杂影响的参量，从利润最根本的角度出发建立基本模型。

4 建立模型

一趟航班运行的成本基本与实际搭乘的乘客数量无关。航班的成本包括了航空公司支付的薪水、燃料费用、机场承担的起飞、降落和操作费用，以及一些其它的费用（比如飞机维修费用，地面工作人员的薪金，广告费用）。不管航班是否满舱，航空公司都必需给飞行员、领航员、工程师和舱内全体职员支付薪金。而相对于半舱的航班，满舱的航班所多消耗的燃料在总体的燃料负担中仅占很小的比例。

利润 = 收入—成本

一趟航班运行的成本记为 f

如果一趟航班实际搭载了名乘客，那么所得的余额是n

fngS

其中，g为每名乘客支付的运费。当乘客的数目增加时，利润也跟着增加。最大可得利润是

fNgS max

其中，N 是航班的满舱载客量。

不同类型的乘客支付不同的运费，例如头等舱、公务舱、经济舱都有各自的定价。为了建模方便，现在假设所有的乘客都支付同样的运费。

一趟航班的收入取决于实际的乘客人数 n

当乘客所付的总运费恰好能维持航班的费用时，达到一个临界人数

gfn /当乘客人数少于它时，航班的经营将会造成损失。容易看出，为了获得尽可能大的利润，航空公司应当让每一趟航班达到满舱。

误机者会影响满舱。

分析初步模型模型

每趟航班能否达到满舱？

因此，需要在基本模型上加进反映“乘客误机”这一条件的参量，并考察其对所求利润的影响。

2 ）扩充模型

N

时也不一定能保证利润达到最大，则订票上限便不应局限于 N 值。

假设订票的总人数是 m，m有可能超出 N

航空公司可能从航班中得到的利润为

fNgS

fgkmS当

Nkm

Nkm

考虑到发生乘客误机的情况，使得即使订票数为

当有 k个人误机时，

乘客没有搭乘航班属于偶然事件，要反映这一事件，必须加进乘客搭乘航班的概率这一参量。设有

k 个人误机的概率是 kP

则所得利润的表达方式只能是利润的数学期望值，用

S 表示，有

1

0

Nm

k

m

Nmkkk fgkmPfNgP

设有

m

kk kmPS

0

利润名乘客乘坐的航班所得有

如果 Nm ，则第一项和不存在， S仅由第二项和表出，并且求和下限由 0 代替。

由于对航班需求的不同，显然订票的乘客数有可能小于航班载客量，航空公司并不需要考虑超额订票的问题。根据求解的问题，需要假设各种情况，不论航空公司决定的最大订票数 m为多少，在一些时间的热门航线中它都是有可能会达到的。为研究 kP对 S 的影响，将上式改写为

m

k

m

Nmkkk

m

k

m

Nmkkk

gkNmPPfNg

fNgfgkmPfNgPS

0

0

根据 kP 的定义， 10

m

kkP ，因此，有

N

jjNm

m

Nmkk

jPgfNg

kNmPgfNgS

0

而在和都为正数的条件下，有 fNgS 。则唯一能达到预期利润最大值的方法是降低所有的 jNmP ，使之趋近于 0 。当订票数量 m充分的大于 N 时，可以达到所要结果。因为，

当订票的乘客数目增加时，任意大的误机人数出现的概率便随之降低。

因此，第二个模型通过预测已订票乘客的真正登机数目表明，可以令订票数充分地大于航班客载量来使预期的利润趋近于理论上的最大值，即航班满舱时的可获得的利润。在这个模型中对订票的超额数量并没有任何限制，它甚至可能是航班载客量的好几倍。

但是，一旦实行了超额订票策略之后，除了对航班的利润带来保障外，也会带一些负面的影响。即到达机场要求登机的乘客数 m-k , 可能要比航班的载客量大得多。对被挤兑的乘客数为

N

kmN

单从表面上来看，显然航空公司最后得到的利润需要扣除这一部分费用，并且这笔费用是随着 m 的变化而变化。因此，需要在模型里加进代表“被挤兑的乘客所支出的费用”这一参量，并考察其对所求利润的影响，以及它与 m 的相互关系。

被挤兑的乘客造成航空公司两方面的损失：

滞留费用，机票签转的费用。来自乘客的抱怨，影响公司形象的潜在费用。

当出现超额订票并有超出航班载客量的乘客抵达机场的情况时，假设航空公司通过各种方法处理被挤兑的乘客，每一名所需要的费用是 b

建立包括处理超出乘客所需费用在内的，航空公司从某趟航班中期望获得的平均利润的模型。

设实际登机的乘客数为 km ，则航班所得的利润为

bNkmfNgS

fgkmS

Nkm

Nkm

当

3 ）改进的模型

事实上，将利润看成一随机变量，有 km 个人登机所对应的

概率为 kP ，则航空公司从航班中所获得的预期利润，或说平

均利润，便是取遍所有可能的误机人数的情况下，利润的数学期望。因此，有

m

kk kmPS

0

名乘客中所得利润从

1

0

Nm

k

m

Nmkkk fgkmPbNkmfNgP

m

kk

m

kk

Nm

kk kPgPfmgbNkmgkmNP

00

1

0

10

m

kkP ，且表示预计的误机人数，我们用

m

kkkP

0k~

表示，有

1

0

1

0

Nm

kk

Nm

kk

kNmPgbfgkm

kNmPgbgkfmgS

~

~

m

kk

m

kk

Nm

kk kPgPfmgbNkmgkmNP

00

1

0

现在，已经得到一个相对复杂的中间结果。将 10 P 和从 1k 开始令 0kP 代入上式中进行检验。这符合乘客误机的概率为 0 ，即每一名订票的乘客都抵达了机场。在这种情况下，上式简化为

NmbfNg

NmgbfgkmS

~

从 0k~

这个结果表明，如同预测的，如果有 m名乘客预定了载客量为 N的航班并且他们都抵达了机场，那么利润将是满舱的收支差额 fNg 减去承担 Nm 名剩余乘客的费用。在这种 bNm 情况下，最大平均利润在 Nm 时可以达到，就如同最初的基本模型所表示的一般。相较于基本模型，此时的模型已经考虑了“乘客误机”与“安排被挤兑乘客”两种情况。其中“有名乘客误机”这一偶然事件的概率 kP ，还可进一步分解以方便估计与计算。

k

接着，便来讨论关于 kP 的形式。最简单地，假设一乘客登机的概率为 p，而误机的概率为 q。进一步假设抵达机场的乘客两两无关，则可得到 kP 的二项式结构为

kmkkmk pqCP

当然，事实上这个误机者两两无关的假设并不是完全正确的——一部分的乘客是两人或是以小组为单位一起行动的。现在，先从最简单的情况开始入手。由这个结构 qmk

~

可得

1

0

Nm

kk kNmPgbfpmgS

~

航空公司将要尝试的就是找出航班所得平均利润的最大值。上式中表达的平均利润依赖于 mqfbg ,,,, 和N。成本 f，票价 g 和费用 b则在航空公司短期控制范围之外（运费是由 IATA决定，而不是由个别的航空公司决定），q 和 N由客观因素约束，只有订票数目上限m是航空公司可以改变的参数。

fpmg

qmgfmg

kPgPfmg

kgfmgPS

kk

m

kk

0

上式中的部分和结果表明，这个问题可以通过列举细表来得到解决。但是，明显地，最佳的订票上限至少不低于航班的载客量 N。当 Nm 时，所得利润可化简为

这是关于 m的增函数。我们计算得 kP 包含各种取值，每一个对应于一个订票上限 kPm。通过 mqfbg ,,,, 和 N来求得利润，并根据各组不同数值的

Nqfbg ,,,, 来选出最佳的订票上限。式中的和其实是一个关于 S~

mNq ,, 的函数，在给出估算这个和，然后便会发现预期的利润是一个关于

mNq ,, 的值后，可以编写计算程序来

Nbfgmq ,,,,, 的函数。航空公司综合考虑大量的因素，得出的临界人数大约是航班载客量的 60% ，所以可以估计一个最佳近似值，即是 fNg 60. 。因此，可以得到

1160

1 1

0

Nm

kk kNmP

g

bpm

Nf

S

.

用计算程序比照订票数量来计算一架载客量为 300 的飞机所能得到的预期利润，假设 10050 .,.q 和 20./ gb结果很明显，依据超额订票程度来达到最大的可能利润是可行的。同样，也可以计算 j 个或是更多乘客发生座位冲撞的概率：

jNm

kkPjP

0

位冲撞个或是更多乘客发生座

结果表明，当超额订票的乘客数分别为 20 和 39 时，可以达到最大的预期利润。有 5 名或更多乘客发生座位冲撞的概率在46% 和 55% 之间。

当考虑到安排一名被挤兑乘客的费用所带来的影响时，得到的结果和从直观上所得的结果是一致的，因为安排剩余乘客所需费用增加，为从航班中得到的最大预期利润所需要的超额订票数便会减少，发生任意多名乘客座位冲撞的概率（这里以发生 5 名或更多的乘客座位冲撞例）也就降低了。能达到最大预期利润的订票水平，将作为构成机票价格的一部份。对 300座的客机，设 fNg 60.对于 b值的估计，这笔费用大致是由实际和相对潜在的，例如公司信誉的损害与将来的潜在客源流失，两笔花费构成。这个讨论应该导向关于灵敏度的考虑。第二个结果显示，有 5 名或是更多的乘客座位发生冲撞的概率对 b与 g的比值变化是非常灵敏的，而相对地，预期的利润值对这种变化的反映则并不很大。在实际中，这表示航空公司的决策制定者很容易过高地估计而犯错。其实要精确b估计这笔支出费用是相当困难地，在降低平均利润的条件b下，高估一个小数目虽然也有益处，但要降低乘客座位冲撞概率到一个有意义的数目的条件是很大的。

模型推广资源的所有者在将其对外出借、出租或出售时，必需制定关于未来提供给顾客的的服务能否实现的决策。本文讨论的航班订票只是这一大类型中的一个，以下列出了三个从此类问题中挑选出的例子，通过建模练习可以在这个课题中获得更大的收获。1 ）酒店酒店接受房间预订主要是建立在诚信之上，因此通常不会再接受有过失信记录的顾客的预订。一些酒店在接受预订时会要求顾客交纳押金，以此来确保顾客住房的概率（施行这种方案的一般是低价酒店，因为它们的周转资金往往不多），而另一些酒店则可能会给长期订房或是预付房费的顾客打折。这种多价格系统的经营方式是可以考虑的。2 ）汽车出租公司汽车出租公司一般会保留固定数量的汽车（至少在短期内）以出租给顾客。出租公司可能会为频繁租借汽车的顾客打折，以此来确保公司能有最低量的收入。而一些长期出租品（一

次出租一周或一个月）也会标上优惠的价格，因为这给出了一个至少确定了未来的一段日子会有收入的策略。在预测一些车辆的预订可能会被取消的情况下，一间公司有可能充分地留出比它们计划中要多的汽车。 3 ）图书馆图书馆都有可能购买一些畅销书籍的多种版本。特别是在学院或大学图书馆里，时常购买一系列课本。某些版本极有可能仅限在图书馆内，以方便学生们的使用。可以尝试建立书籍使用的模型。

四软件开发人员的薪金

问题：一家高技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系，要建立一个数学模型，以便分析公司人士策略的合理性，并作为新聘用人员工资的参考。他们认为目前公司人员的薪金总体上是合理的，可以作为建模的依据，于是调查了 46 名开发人员的档案资料，如表。其中资历一列指从事专业工作的年数，管理一列中 1 表示管理人员， 0 表示非管理人员，教育一列中 1表示中学程度， 2 表示大学程度， 3 表示更高程度（研究生）

编号薪金资历管理教育编号薪金资历管理教育

01 13876 1 1 1 13 19800 3 1 3

02 11608 1 0 3 14 11417 4 0 1

03 18701 1 1 3 15 20263 4 1 3

04 11283 1 0 2 16 13231 4 0 3

05 11767 1 0 3 17 12844 4 0 2

06 20872 2 1 2 18 13245 5 0 2

07 11772 2 0 2 19 13677 5 0 3

08 10535 2 0 1 20 15965 5 1 1

09 12195 2 0 3 21 12366 6 0 1

10 12313 3 0 2 22 21352 6 1 3

11 14975 3 1 1 23 13839 6 0 2

12 21371 3 1 2 24 22884 6 1 2

编号薪金资历管理教育编号薪金资历管理教育

25 16978 7 1 1 36 16882 12 0 2

26 14803 8 0 2 37 24170 12 1 3

27 17404 8 1 1 38 15990 13 0 1

28 22184 8 1 3 39 26330 13 1 2

29 13548 8 0 1 40 17949 14 0 2

30 14467 10 0 1 41 25685 15 1 3

31 15942 10 0 2 42 27837 16 1 2

32 23174 10 1 3 43 18838 16 0 2

33 23780 10 1 2 44 17483 16 0 1

34 25410 11 1 2 45 19207 17 0 2

35 14861 11 0 1 46 19346 20 0 1

开发人员的薪金与他们的资历、管理责任、教育程度

分析与假设：按照常识，薪金自然按照资历（年）的增长而增加，管理人员的薪金高于非管理人员，教育程度越高薪金越高。

薪金记作 y，资历（年）记作 1x，为了表示是否为管理人员定义

2x1 ，管理人员

0 ，非管理人员为了表示三种教育程度，定义

3x1 ，中学

0 ，其它4x

1 ，大学

0 ，其它这样，中学用 0,1 43 xx 表示，大学用 1,0 43 xx 表示，研究生则用 0,0 43 xx 表示。

为了简单起见，我们假定资历（年）对薪金的作用是线性的，即资历每加一年，薪金的增长是常数；管理责任、教育程度、资历诸因素之间没有交互作用，建立线性回归模型。

基本模型：薪金 y与资历 1x，管理责任 2x ，教育程度 43 , xx 之间的

多元线性回归模型为 443322110 xaxaxaxaay

其中， 410 ,,, aaa 是待估计的回归系数，是随机误差。利用MATLAB的系统工具箱可以得到回归系数及其置信区间（置信水平）05.0 、检验统计量 pFR ,,2 的结果，见表。

参数参数估计值置信区间

11032 [10258 11807]

546 [484 608]

6883 [6248 7517]

-2994 [-3826 -2162]

148 [-636 931]

0a

1a

2a

3a

4a

0,226,957.02 pFR

结果分析：从表中， 957.02 R ，即因变量（薪金）的 95.7%可由模型确定，F值超过 F检验的临界值，p远小于，因而模型从整体来看是可用的。比如，利用模型可以估计（或估计）一个大学毕业、有 2 年资历、管理人员的薪金为

122731ˆ0ˆ0ˆ2ˆˆˆ 43210 aaaaay

模型中各个回归系数的含义可初步解释如下： 1x 的系数为 546 ，说明资历每增加一年，薪金增长 546； 2x 的系数为 6883 ，说明管理人员的薪金比非管理人员多 6883 ； 3x 的系数为 -2994 ，说明中学程度的薪金比研究生少 2994 ； 4x 的系数为 148，说明

大学程度的薪金比研究生多 148，但是应该注意到 4a 的置信区间包含零点，所以这个系数的解释是不可靠的。注意：上述解释是就平均值来说的，并且，一个因素改变引起的因变量的变化量，都是在其它因素不变的条件下才成立的。

进一步讨论：的置信区间包含零点，说明上述基本模型存在缺点。为了4a

寻找改进的方向，常用残差分析法（残差指薪金的实际值y与模型估计的薪金 y之差，是基本模型中随机误差的

估计值，这里用同一个符号）。我们将影响因素分成资历与管理—教育组合两类，管理 -- 教育组合定义如表。

组合 1 2 3 4 5 6

管理 0 1 0 1 0 1

教育 1 1 2 2 3 3

管理—教育组合

为了对残差进行分析，下图给出与资历 1x 的关系，及与管理 2x -- 教育 43 , xx 组合间的关系。

与资历 1x 的关系与 432 , xxx 组合的关系

从左图看，残差大概分成 3 个水平，这是由于 6 种管理—教育组合混在一起，在模型中未被正确反映的结果；从右图看，对于前 4个管理—教育组合，残差或者全为正，或者全为负，也表明管理-- 教育组合在模型中处理不当。在模型中，管理责任和教育程度是分别起作用的，事实上，二者可能起着交互作用，如大学程度的管理人员的薪金会比二者分别的薪金之和高一点。

以上分析提示我们，应在基本模型中增加管理

更好的模型：

2x 与教育 43 , xx

的交互项，建立新的回归模型。

增加 2x 与 43 , xx 的交互项后，模型记作

426325443322110 xxaxxaxaxaxaxaay

利用MATLAB的统计工具箱得到的结果如表：

参数参数估计值置信区间11204 [11044 11363]

497 [486 508]

7048 [6841 7255]

-1727 [-1939 -1514]

-348 [-545 -152]

-3071 [-3372 -2769]

1836 [1571 2101]

0a

1a

2a

3a

4a

5a

6a

0,554,999.02 pFR

由上表可知，这个模型的

做该模型的两个残差分析图，可以看出，已经消除了不正常现象，这也说明了模型的适用性。

2R 和 F值都比上一个模型有所改进，并且所有回归系数的置信区间都不含零点，表明这个模型完全可用。

与 1x 的关系与 432 , xxx 组合的关系

从上图，还可以发现一个异常点：具有 10 年资历、大学程度的管理人员（编号 33 ）的实际薪金明显低于模型的估计值，也明显低于与他有类似经历的其他人的薪金。这可能是由我们未知的原因造成的。为了使个别数据不致影响整个模型，应该将这个异常数据去掉，对模型重新估计回归系数，得到的结果如表。残差分析见图。可以看到，去掉异常数据后结果又有改善。

参数参数估计值置信区间11200 [11139 11261]

498 [494 503]

7041 [6962 7120]

-1737 [-1818 -1656]

-356 [-431 -281]

-3056 [-3171 -2942]

1997 [1894 2100]

0a

1a

2a

3a

4a

5a

6a

0,36701,9998.02 pFR

与 1x 的关系与 432 , xxx 组合的关系

模型的应用：对于第二个模型，用去掉异常数据（ 33号）后估计出的系数得到的结果是满意的。模型的应用之一，可以用来“制订” 6种管理—教育组合人员的“基础”薪金（即资历为零的薪金），这是平均意义上的。利用第二个模型和去掉异常数据后得到的回归系数，可以得到如下结果：

组合管理教育系数 “ 基础”薪金

1 0 1 9463

2 1 1 13448

3 0 2 10844

4 1 2 19882

5 0 3 11200

6 1 3 18241

30 aa

5320 aaaa

40 aa

6420 aaaa

0a

20 aa

可以看出，大学程度的管理人员薪金比研究生程度管理人员薪金高，而大学程度的非管理人员薪金比研究生程度非管理人员薪金略低。当然，这是根据这家公司实际数据建立的模型得到的结果，并不具普遍性。

评注：从建立回归模型的角度，通过这个问题的求解我们学习了：1 ）对于影响因变量的定性因素（管理、教育），可以引入 0—1 变量来处理， 0—1 变量的个数比定性因素的水平少 1 （如教育程度有 3 个水平，引入 2 个 0—1 变量）。2 ）用残差分析法可以发现模型的缺陷，引入交互作用项常常可以得到改善。3 ）若发现异常值应剔除，有助于结果的合理性。

思考：在这里我们由简到繁，先分别引进管理和教育因素，再引入交互项。试直接对 6 种管理 - 教育组合引入 5 个 0—1 变量，建立模型，看结果如何。

五教学评估

为了考评教师的教学质量，教学研究部门设计了一个教学评估表，对学生进行一次问卷调查，要求学生对 12 位教师的 15门课程（其中 3 为教师有两门课程）按以下 7 项内容打分，分值为 1—5 分（ 5 分最好， 1 分最差）：

问题：

1X ~ 课程内容组织的合理性；2X ~主要问题展开的逻辑性；

3X ~回答学生问题的有效性；4X ~ 课下交流的有助性；5X ~教科书的帮助性；6X ~考试评分的公正性；Y ~对教师的总体评价。

收回问卷调查表后，得到了学生对 12 为教师、 15门课程各项评分的平均值，见表。

教师编号

课程编号

1 201 4.46 4.42 4.23 4.10 4.56 4.37 4.11

2 224 4.11 3.82 3.29 3.60 3.99 3.82 3.38

3 301 3.58 3.31 3.24 3.76 4.39 3.75 3.17

4 301 4.42 4.37 4.34 4.40 3.63 4.27 4.39

5 301 4.62 4.47 4.53 4.67 4.63 4.57 4.69

1X 2X 3X 4X 5X 6X Y

教师编号

课程编号

6 309 3.18 3.82 3.92 3.62 3.50 4.14 3.25

7 311 2.47 2.79 3.58 3.50 2.84 3.84 2.84

8 311 4.29 3.92 4.05 3.76 2.76 4.11 3.95

9 312 4.41 4.36 4.27 4.75 4.59 4.11 4.18

10 312 4.59 4.34 4.24 4.39 2.64 4.38 4.44

11 333 4.55 4.45 4.43 4.57 4.45 4.40 4.47

12 424 4.67 4.64 4.52 4.39 3.48 4.21 4.61

3 351 3.71 3.41 3.39 4.18 4.06 4.06 3.17

4 411 4.28 4.45 4.10 4.07 3.76 4.43 4.15

9 424 4.24 4.38 4.35 4.48 4.15 4.50 4.33

1X 2X 3X 4X 5X 6X Y

61 ~ XX 不一定每项都

对教师总体评价Y有显著影响，并且各项内容之间也可能存

在很强的相关性，他们希望得到一个总体评价与各项具体内容之间的模型，模型应尽量简单和有效，并且由此能给教师一些合理的建议，以提高总体评价。准备知识：逐步回归这个问题给出了 6 个自变量，但我们希望从中选出对因变量Y影响显著的那些来建立回归模型。变量选择的标准应该是将所有对因变量影响显著的自变量都选入模型，而影响不显著的自变量都不选入模型，从便于应用的角度，应使模型中的自变量个数尽量少。逐步回归就是一种从众多自变量中有效的选择重要变量的方法。

教学研究部门认为，所列各项具体内容

逐步回归的基本思路是，先确定一个包含若干自变量的初始集合，然后每次从集合外的变量中引入一个对因变量影响最大的，

再对集合中的变量进行检验，从变得不显著的变量中移出一个影响最小的，依次进行，直到不能引入和移出为止。引入和移出都以给定的显著性水平为标准。

利用MATLAB系统工具箱中的逐步回归命令 stepwise可以实现逐步回归。 Stepwise提供人机交互式画面，可以在画面上自由引入和移出变量，进行统计分析。具体用法参见MATLAB丛书回归模型的建立与求解：我们利用MATLAB命令得到各个变量的回归系数，置信区间，及剩余标准差（ RMSE），决定系数（ R-square），F 值，p

值。见表。

参数参数估计值置信区间1 0.5162 [0.01546 0.019]

2 -0.05469 [-0.853 0.7436]

3 0.6706 [-0.03795 1.379]

4 0.1245 [-0.462 0.6751]

5 -0.04335 [-0.2514 0.1647]

6 0.1363 [-0.6958 0.9684]

RMSE R-square F p

0.1125 0.9806 67.29 2.071e-006

可以看到，除 1X 外其他自变量的回归系数置信区间都包含零点3X 在临界状态，将 6542 ,,, XXXX 一一移去（与次序无关），当模

型中仅含 31, XX 时结果见下表。

参数参数估计值置信区间1 0.5099 [0.326 0.6938]

2 -0.1137 [-0.689 0.4616]

3 0.7678 [-0.5124 1.023]

4 0.0833 [-0.2767 0.4433]

5 -0.018 [-0.1565 0.1205]

6 0.1109 [-0.5594 0.7811]

RMSE R-square F p

0.1 0.977 254.7 1.487e-010

可以看到，仅含 31, XX 模型的回归系数置信区间远离零点，31, XX 对 Y 的影响是显著的，与上个结果比较，剩余标准差由

0.1125减少到 0.1 ，虽然 2R 略有下降，但 F值大大提高。这些表明仅含 31, XX 模型是合适的。但MATLAB命令并未给出回归模型的常数项。我们由以下方法计算得到：

终得到的模型为

在最终模型里回归变量只有

2471.133110 XbXbYb

其中， 31,, XXY 分别是 31,, XXY 的平均值。利用逐步回归最

2471.17678.05099.0 31 XXY

模型解释：31, XX ，是一个简单易用的模型，据

此可把课程内容组织的合理性（）1X 和回答学生问题的有效性（）列入考评的重点。上式表明，3X 1X 的分值每增加一分，对教师的总体评价就增加约 0.5 分； 3X 的分值每增加一分，对教师的总体评价就增加约 0.77 分。应建议教师注重这两方面的工作。为了分析其它变量没有进入最终模型的原因，可以计算 YXX ,~ 61

的相关系数，利用MATLAB系统工具箱中的 corrcoef 命令直接得到这 7 个变量的相关系数矩阵：

1.0000 0.9008 0.6752 0.7361 0.2910 0.6471 0.8973

0.9008 1.0000 0.8504 0.7399 0.2775 0.8026 0.9363

0.6752 0.8504 1.0000 0.7499 0.0808 0.8490 0.9116

0.7361 0.7399 0.7499 1.0000 0.4370 0.7041 0.8219

0.2910 0.2775 0.0808 0.4370 1.0000 0.1872 0.1783

0.6471 0.8026 0.8490 0.7041 0.1872 1.0000 0.8246

0.8973 0.9363 0.9116 0.8219 0.1783 0.8246 1.0000

一般认为，两个变量的相关系数超过 0.85 时才具有显著的相关关系。由上面的结果知，与 Y 相关关系显著的只有 321 ,, XXX

而 2X 未进入最终模型，是由于它与 31, XX 的相关系数显著（相关系数 8504.0,9008.0 3212 rr ），可以说，模型中有了 31, XX 以后

变量

如果初步看来影响因变量的因素较多，并得到了大量的数据。为了建立一个有效的、便于应用的模型，可以利用逐步回归只选择那些影响显著的变量“入围”。如果怀疑原有变量的平方项、交叉项等也会对变量有显著影响也可以将这些项作为新的自变量加入到候选行列，用逐步回归来处理。

2X 是多余的，应该去掉。

评注：

练习：下表给出了某工厂产品的生产批量与单位成本（元）的数据，从散点图，可以明显的发现，生产批量在 500 以内时，单位成本对生产批量服从一种线性关系，生产批量超过 500 时服从另一种线性关系，此时单位成本明显下降。希望你构造一个合适的回归模型全面地描述生产批量与单位成本的关系。

生产批量 650 340 400 800 300 600 720 480 440 540 750

单位成本 2.48 4.45 4.52 1.38 4.65 2.96 2.18 4.04 4.20 3.10 1.50

Documents

概率统计模型