§ 9.4 信息的度量与应用

§ 9.4 信息的度量与应用

怎么度量信息

首先分析一下问题的认识过程

1. 对一问题毫无了解，对它的认识是不确定的2. 通过各种途径获得信息，逐渐消除不确定性 3. 对这一问题非常的了解，不确定性很小

黑箱

不确定度 A

灰箱

不确定度 B

白箱

不确定度 C

信息 I 信息 II

对于系统，可以利用守恒关系有 A+I=B ，得 I=B-

A 。

可否用消除不确定性的多少来度量信息！可否用消除不确定性的多少来度量信息！

几个例子：例 12 当你要到大会堂去找某一个人时，甲告诉你两条消息：（ 1 ）此人不坐在前十排，（ 2 ）他也不坐在后十排；乙只告诉你一条消息：此人坐在第十五排。问谁提供的信息量大？乙虽然只提供了一条消息，但这一条消息对此人在什么位置上这一不确定性消除得更多，所以后者包含的信息量应比前者提供的两条消息所包含的总信息量更大例 13 假如在盛夏季节气象台突然预报“明天无雪”的消息。在明天是否下雪的问题上，根本不存在不确定性，所以这条消息包含的信息量为零。

是否存在信息量的度量公式

基于前面的观点，美国贝尔实验室的学者香农（ Shannon ）应用概率论知识和逻辑方法推导出了信息量的计算公式

In his words "I just wondered how things were put together."

Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called "the father of information theory".

Shannon 提出的四条基本性质（不妨称它们为公理）公理 1 信息量是该事件发生概率的连续函数

公理 2 如果事件 A 发生必有事件 B 发生，则得知事件 A 发生的信息量大于或等于得知事件 B 发生的信息量。

公理 3 如果事件 A 和事件 B 的发生是相互独立的，则获知A 、 B 事件将同时发生的信息量应为单独获知两事件发生的信息量之和。

公理 4 任何信息的信息量均是有限的。

将某事件发生的信息记为 M ，该事件发生的概率记为 p ，记 M 的信息量为 I （ M ）。

上述公理怎样推出信息量的计算公式呢

定理 11.2 定理 11.2

满足公理 1— 公理 4 的信息量计算公式为 I(M)= － Cloga

p ，其中 C 是任意正常数，对数之底 a可取任意为不为 1的正实数。

证明 :由公理 1 I(M)=f(p) ，函数 f 连续。由公理 2 若 A 发生必有 B 发生，则 pA≤pB ，

有 f(pA)≥f(PB) ，故函数 f 是单调不增的。由公理 3 若 A 、 B 是两个独立事件，则 A 、 B 同时发生的概率为 pApB ，有 f(PAPB)=f(pA)

+f(pB) 。先作变量替换令 p=a-q ，即 q= － logaP 记

)( BA qqBA epp )()()( qgefpf q

)()()( BABA qgqgqqg ，又有：

， g 亦为连续函数。

g(x+y)=g(x)+g(y) 的连续函数有怎样的性质

首先，由 g(0)=g(0+0)=2g(0) 得出 g(0)=0 或 g(0)=∞ 。但由公理 4 ，后式不能成立，故必有 g(0)=0 。

记 g(1)=C ，容易求得 g(2)=2C,g(3)=3C,…, 一般地，有 g(n)=nC 。进而，可得。于是对一切正有理数 m/n ， g(m/n) =(m/n)C 。

nng

nngg

111)1( )1(

11gnn

g

由连续性可知：对一切非负实数 x ，有 g(x)=Cx 当 x 取负实数时，由 g(x)+g( － x)=g(0)=0 ，可得出 g(x)=―g(―x)=cx 也成立，从而对一切实数 x ， g(x)=Cx, 故 g(q)=Cq 。现作逆变换 q= － logap ，

得 I(M)=f(P)= － ClogaP （ 11.3 ）证毕。

各种信息量单位

若取 a=2,C=1 ，此时信息量单位称为比特

若取 a=10,C=1 ，此时信息量单位称为迪吉特

若取 a=e,C=1 ，此时信息量单位称为奈特

例 14 设剧院有 1280 个座位，分为 32 排，每排 40座。现欲从中找出某人，求以下信息的信息量。（ i ）某人在第十排；（ ii ）某人在第 15座；（ iii ）某人在第十排第 15座。解：在未知任何信息的情况下，此人在各排的概率可以认为是相等的，他坐在各座号上的概率也可以认为是相等的，故

（ i ）“某人在第十排”包含的信息量为（比特） 5

32

1log2

（ ii ）“某人在第 15座”包含的信息量为（比特） 32.5

40

1log2

（ iii ）“某人在第十排第 15座”包含的信息量为（比特） 32.10

1280

1log2

5bit+5.32bit=10.32bit5bit+5.32bit=10.32bit

这一例子反映了对完全独立的几条信息，其总信息量等于各

条信息的信息量之和。

对于相应不独立的信息，要计算在已获得某信息后其余信息的信息量时，需要用到条件概率公式，

可以参阅信息论书籍。

至此，我们已经引入了信息度量的定量公式。如前所述，它是信息对消除问题的不确定性的度量。这种讲法似乎有点难以为人们所接受，其实，这只是人们的习惯在起作用。这里，我们不妨来作一比较。在人们搞清热的奥秘以前，温度也是一个较为抽象的概念，因它实质上是物体分子运动平均速度的一种映。人们天生就知道冷和热，但如何来度量它却曾经是一个难题。只有在解决了这一问题以后，以定量分析为主的热力学才能得到飞速的发展。信息问题也是这样，人们对各种信息包含的实质“内容”究竟有多少往往也有一个直观的感觉，但用什么方法来度量它，却比“今天 15 度”这样的讲法更不易理解，因为它是通过较为抽象的概率来计算的。

平均信息量（熵）问题设某一实验可能有 N 种结果，它们出现的概率分别为 p1,…,pN,

则事先告诉你将出现第 i 种结果的信息，其信息量为－ log2pi ，而该实验的不确定性则可用这组信息的平均信息量（或熵）

来表示

N

iii ppH

12log

例 15 投掷一枚骼子的结果有六种，即出现 1—6 点、出现每种情况的概率均为 1/6 ，故熵 H=log26≈2.585 （比特）。投掷一枚硬币的结果为正、反面两种，出现的概率均为 1/2 ，故熵 H=log22=1 （比特）。向石块上猛摔一只鸡蛋，其结果必然是将鸡蛋摔破，出现的概率为 1 ，故熵 H=log21=0 从例子可以看出，熵实质上反映的是问题的“模糊度”，熵为零时问题是完全清楚的，熵越大则问题的模糊程度也越大

离散型概率分布的随机试验，熵的定义为：

（ 11.5 ）

N

iii ppH

12log

连续型概率分布的随机试验，熵的定义为 : （ 11.6 ）

dxxpxppH )(log)()( 2

熵具有哪些有趣的性质

定理 11.3 若实验仅有有限结果 S1,…,Sn ，其发生的概率分别为 P1,…,Pn ，则当时，此实验具有最大熵。

npp n

11

此定理既可化为条件极值问题证明之，也可以利用凸函数性质来证明，请大家自己

去完成

定理 9.4 若实验是连续型随机试验，其概率分布 P(x) 在 [a,b]区间以外均为零，则当 P(x)平均分布时具有最大熵。

定理 9.5 对于一般连续型随机试验，在方差一定的前提下，正态分布具有最大的熵。

定理 9.6 最大熵原理，即受到相互独立且均匀而小的随机因素影响的系统，其状态的概率分布将使系统的熵最大。

上述结果并非某种巧合。根据概率论里的中心极限定理，若试验结果受到大量相互独立的随机因素的影响，且每一因素的影响均不突出时，试验结果服从正态分布。最大熵原理则说明，自然现象总是不均匀逐步趋于均匀的，在不加任何限止的情况下，系统将处于熵最大的均匀状态。

上述结果并非某种巧合。根据概率论里的中心极限定理，若试验结果受到大量相互独立的随机因素的影响，且每一因素的影响均不突出时，试验结果服从正态分布。最大熵原理则说明，自然现象总是不均匀逐步趋于均匀的，在不加任何限止的情况下，系统将处于熵最大的均匀状态。

例 16 有 12 个外表相同的硬币，已知其中有一个是假的，可能轻些也可能重些。现要求用没有砝码的天平在最少次数中找出假币，问应当怎样称法。

解假币可轻可重，每枚硬币都可能是假币。故此问题共有

24 种情况，每种情况的概率为 1/24 。所以此问题的熵为 log224 。确定最少次数的下界

实验最多可能出现三种结果，根据定理 11.3 ，这种实验在可能出现的各种事件具有相等的概率时，所提供的平均信息量最大，故实验提供的平均信息量不超过 log23 。

设最少需称 k次，则这 k次实验提供的总信息量

不超过 klog23=log23k ，又问题的模糊度（熵）为 log224

必要条件 : log2

3k≥log2

24 ，得 k≥3 。

称三次足够了吗？

实验方法：使每次实验提供尽可能大的平均信息量。

第一次：将 12枚硬币平分成三堆，取两堆称，出现两中情况情况 1 两堆重量相等

假币在未秤的 4枚中。任取其中的 3枚加上从已秤过的 8枚中任取的 1枚，平分成两堆称。出现两种情况情况 1.1 两堆重量相等

最后剩下的一枚是假币 ,再称一次知其比真币轻还是重。情况 1.2 两堆重量不相等设右重左轻，并设真币在左边，若假币在右边，则比真币重，若在左边，则轻。取右边两个称。

情况 2 两堆重量不相等设右边较重。先从左边取出两枚，再将右边的取两枚放到左边，将原来左边的两枚中取出一枚放于右边情况 2.1 两堆重量相等

取出的两枚中轻的为假币，再称一次即可找出假币。

情况 2.2 两堆重量不相等若右边较重，则假币在右边原来的两枚及左边未动过的一枚中（若为前者，则假币偏重；若为后者，则假币偏轻），于是再称一次即可找出假币。若第二次称时左边较重，则假币必在交换位置的三枚中，可类似区分真伪。三次是最少次数！

英文的熵是多少呢？

例 17 在人类活动中，大量信息是通过文字或语言来表达的，而文学或语言则是一串符号的组合。据此，我们可以计算出每一语种里每一符号的平均信息量。例如，表 11-2 、表 11-3 、表11-4 分别是英语、德语和俄语中每一符号（字母与空格，标点符号不计）在文章中出现的概率的统计结果（汉语因符号繁多，难以统计）

表 11-2 （英语）

符号

i

Pi 符号

i

Pi 符号 Pi

符号 Pi

空格ETOANI

0.20.1050.0720.065

40.0630.0590.065

RSHDLCF

0.0540.0520.0470.0350.0290.0230.022

5

UMPYWGV

0.0225

0.0210.017

50.0120.0120.0110.008

BKXJQZ

0.0050.0030.0020.0010.0010.001

表 11-3 （德语）

符号

i

Pi 符号

i

Pi 符号 Pi

符号 Pi

空格ENSIRA

0.1440.1440.086

50.064

60.062

80.062

20.059

4

DTUHLCG

0.0546

0.0536

0.0422

0.0361

0.0345

0.0255

0.0236

OMBWZVF

0.0211

0.0172

0.0138

0.0113

0.0092

0.0079

0.0078

KPJJQY

0.0071

0.0067

0.0028

0.0008

0.0005

0.0000

表 11-4 （俄语）

符号

i

Pi 符号

i

Pi 符号 Pi

符号 Pi

空格O

E ЁAИTHC

0.1750.0900.0720.0620.0620.0530.0530.045

PBЛКМДПу

0.0400.0380.0350.0280.0260.0250.0230.021

ЯЫэ

ъьБГЧй

0.0180.0160.0160.0140.0140.0130.0120.010

ХЖЮЩЦШЭФ

0.0090.0070.0060.0060.0040.0030.0030.002

以英文为例，可计算得：

27

12 03.4log

iii PPH （比特 /每符

号）对于有 27个符号的信息源，可能达到的最大平均信息量为：

75.427log 2max H （比特 /每符号）

由此可计算出英语表达的多余度为：

15.0max

max

H

HH（即 15% ）

英文的多余度

事实上，英语在表达意思上的确存在着富余。例如 Q后出现 U的概率几乎是 1， T后出现H的概率也很大，等等。这种多余是完全必要的，没有多余度的语言是死板的，没有文采的，它是存在语法的必要条件。但对于电报编码、计算机文字处理来讲，这种多余度的存在常常会造成浪费。有人在上述讨论的基础上研究了符号编码问题，使得每一符号的平均信息量达到十分接近 Hmax的程度，但由于译电过于复杂，这种方法尚未实际应用。

信息通道的容量问题

问题背景：信息的传递是需要时间的。用 n 个符号 S1 、…、 Sn 来表达信息，各符号传递所需时间是各不相同的，设分别为 t1 、…、 tn ，并设各符号出现的概率分别为 p1 、…、 pn 。这样，就出现了两方面的问题。一、 pi 是确定的，如何缩短传递确定信息所需的时间。

二、 ti 是确定的，如何使单位时间传递的平均信息量最大。

单位时间内信息通道能够传递的最大平均信息量称为此信息通道的容量

如何求信息通道的容量？

每一符号的平均信息量为：

n

iii ppH

12log

每一符号所需的平均时间为：

n

iiitp

1

故单位时间内传递的平均信息量应为：

t

H

tp

pp

n

iii

n

iii

1

12log

问题化为：

n

iii

n

iii

ptp

pp

t

Hi

1

12log

max

n

iiptS

1

1.

（ 11.7 ）

利用拉格朗日乘子法，（ 11.7 ）式可化为无约束极值问题：

n

iin

iii

n

iii

pp

tp

pp

i 1

1

12

)1(log

max （ 11.8 ）

记（ 11.8 ）式的目标函数为 f(p,λ) ，即求解方程组：

0

,,1 ,0

f

nip

f

i

（ 11.9 ）

方程组（ 11.9 ）的解为： Ht

t

i

i

pt

e 2,

log2由于是与 pi 有关的量，方程组的解仍无法算出

为此，记

n

iiitpt

1t

H

A 2it

i Ap

n

iip

1

1则，又得方程

n

i

tiA1

1 （ 11.10 ）

n

i

tiAAg1

)(记， g （ 0+ ） =+∞ ， g （ +∞ ） =0及 g’ （ A ）＜ 0 ，

知（ 11.10 ）式有且仅有一个正根，此根容易用牛顿法求

出，进而求出最佳的。

*ip

例 18 为简单起见，设符号只有四种： S1 、 S2 、 S3 和 S4 ，在利用这些符号传递信息时，这些符号分别需要 1 、 2 、 3 、 4单位传递时间，试求出此信息通道的容量及相应的最佳 pi值。

解：求解方程，得唯一正根 A=1.92 。

14321 AAAA

由 A 的定义可以求出此信息通道容量：

94.0logmax 2 At

HC （比特 /单位时

间） 07.0,14.0,27.0,52.0 4*

43*

32*

21*

1 ApApApAp而

货币是人们拥有财富的一种信息，它具有各种面值（相当于例 11.18中的符号），各种面值的平均花费时间是不等的（相当于例 18中的时间），于是，如何控制各种面值的比例以便使货币流通的容量最大显然是一个十分有意义的问题。日本东京工业大学的国泽清典教授基于上述方法计算了 100日元与 500日元信用券应保持的比例，并与市场实际调查作了对比，发现两者完全一致。市场多次调查结果均为 100日元占 75%， 500日元占 25%，而计算结果如下：以百元为单位，令t1=1,t2=5，求解方程求得正根 A≈1.327信息通道容量为 log2A≈0.408（比特 /每单位）

151 AA

234.0,754.0 5*2

1*1 ApAp

Documents

§ 9.4 信息的度量与应用