79
高中阶段似已掌握概率的最基本运算, 大学阶段的学习应如何在其基础上更深一步? 种程度上讲, 大学阶段的学习是一种 知其然且知之其所以然的过程, 既要通过一定的数 学练习培养起严格审慎的概率思维方式, 又要深入理解各种数学定义和公式背后的基本思 想与实用意图, 并了解数学工具的前提假定与应用局限, 从而避免概率思维的误解与滥用. 本章将先回顾中学阶段的一些基础知识和数学符号, 并通过对概率概念及其计算方式的进 一步阐释, 引出条件概率、事件的独立性等基础的概率论概念. 1.1 基础知识回顾 这一部分将回顾高中阶段的集合论术语与概率计算技巧. 1.1.1 基本术语与符号表达 概率论可以说是一门研究随机现象之数学模型的学科. 所谓随机现象(random phenome- non), 就是在一定条件下并不总是出现相同结果的现象. 对随机现象进行观察、记录、实验 的过程, 称为随机试验(random experiment), 而其中的每一次观测则称为 trial(由于中文缺 少单复数形式, 故翻译仍为试验, 但一个 experiment 可包含若干次 trials). 几何意义上讲, 某一随机现象的所有可能结果的集合, 称为样本空间(sample space), 用大写希腊字母 Ω 表示; 而每一个不可再分解的试验结果, 称为样本点(sample point), 小写希腊字母 ω 表示, 通常会加上数字下标, ω 1 2 , ··· n 表示不同的样本点. 如此, 随机事件(random event, 简称事件) 可以定义为某些样本点的集合, 或样本空间的某个(subset). 每一个样本点对应一个基本事件. 样本空间的最大子集, Ω 本身, 称为必然 事件(sure event); 样本空间的最小子集, 空集(empty set), 称为不可能事件(impossible event). 实际使用中, 随机事件可能有不同的表达方式:直接用语言描述, 同一事件可能有不同 的描述; 也可以用样本空间子集的形式表示, 此时需要理解它所表达的实际含义. 同时应当 注意, 这里的 试验与科学中的试验或实验并不是一回事, 这里所称的事件与日常语言中 的事件也不是一回事. 概率论中的 事件试验”, 应当连在一起作为一对相互联系的概 念进行理解. 日常用语中的 事件”, 通常是指已经发生的情况, 非典事件、 “9·11” , 等等. 而概率论中的事件, 仅仅是关于某种状况的一种陈述, 它可能已经发生过, 也可能 没有发生过; 可能发生, 也可能不发生;“发生与否, 需等待 试验的结果才能确定. 概率

1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

  • Upload
    others

  • View
    14

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

高中阶段似已掌握概率的最基本运算,大学阶段的学习应如何在其基础上更深一步?某

种程度上讲, 大学阶段的学习是一种 “知其然且知之其所以然” 的过程, 既要通过一定的数

学练习培养起严格审慎的概率思维方式, 又要深入理解各种数学定义和公式背后的基本思

想与实用意图, 并了解数学工具的前提假定与应用局限, 从而避免概率思维的误解与滥用.

本章将先回顾中学阶段的一些基础知识和数学符号, 并通过对概率概念及其计算方式的进

一步阐释, 引出条件概率、事件的独立性等基础的概率论概念.

1.1 基础知识回顾

这一部分将回顾高中阶段的集合论术语与概率计算技巧.

1.1.1 基本术语与符号表达

概率论可以说是一门研究随机现象之数学模型的学科.所谓随机现象(random phenome-

non), 就是在一定条件下并不总是出现相同结果的现象. 对随机现象进行观察、记录、实验

的过程, 称为随机试验(random experiment), 而其中的每一次观测则称为 trial(由于中文缺

少单复数形式, 故翻译仍为试验, 但一个 experiment 可包含若干次 trials).

从 “几何” 意义上讲, 某一随机现象的所有可能结果的集合, 称为样本空间(sample space),

用大写希腊字母 Ω 表示; 而每一个不可再分解的试验结果, 称为样本点(sample point), 用

小写希腊字母 ω 表示, 通常会加上数字下标, 如 ω1, ω2, · · · , ωn 表示不同的样本点. 如此,

随机事件(random event, 简称事件) 可以定义为某些样本点的集合, 或样本空间的某个子

集(subset). 每一个样本点对应一个基本事件. 样本空间的最大子集, 即 Ω 本身, 称为必然

事件(sure event); 样本空间的最小子集, 即空集∅(empty set), 称为不可能事件(impossible

event).

实际使用中, 随机事件可能有不同的表达方式:直接用语言描述, 同一事件可能有不同

的描述; 也可以用样本空间子集的形式表示, 此时需要理解它所表达的实际含义. 同时应当

注意, 这里的 “试验” 与科学中的试验或实验并不是一回事, 这里所称的事件与日常语言中

的事件也不是一回事. 概率论中的 “事件” 与 “试验”, 应当连在一起作为一对相互联系的概

念进行理解. 日常用语中的 “事件”, 通常是指已经发生的情况, 如 “非典” 事件、“9·11” 事

件, 等等. 而概率论中的事件, 仅仅是关于某种状况的一种陈述, 它可能已经发生过, 也可能

没有发生过; 可能发生, 也可能不发生; “发生” 与否, 需等待 “试验” 的结果才能确定. 概率

Page 2: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

2 R 语言统计学基础

论中称 “两个事件 A 与 B 共同发生或同时发生”, 并不是真的要求你能够 “眼见为实” 地看

到它出现, 而只是在说: “A 与 B 存在同时出现的逻辑上的可能”, 至于它实际上有没有发

生过, 并不是关注的重点. 事件的产生总依赖于试验, 这也不一定意味着个体要去亲身地观

察和实验,而可以只是一种逻辑上的思考与想象,可以仅是一种理论上的 “观察”与 “推测”.

也就是说, 试验虽然可能涉及真实的、科学意义上的观测过程, 但更多的只是一种理性上的

思考过程而已.

直观上讲, 用来表示随机事件结果的变量称为随机变量(random variable), 常用大写字

母,如 X、Y、Z 表示. 这其实是将具体的现象抽象化和符号化的过程. 后面会用更加数学化

的语言来重新定义随机变量, 但不妨先做这一简单理解. 事件之间的关系和运算有很多种,

这里仅列出最常见的几种及其符号表示 (表 1.1), 以便参阅.

表 1.1 概率论中的事件符号及其含义

符号表示 集合论意义 概率论意义

A ⊂ B A 包含在 B 中 若 A 发生, 则 B 一定发生; 事件 A 蕴涵事件 B

A = B A 与 B 相等 A 与 B 同时发生或同时不发生

A ∩B 交集 (intersection) A 与 B 同时发生

A ∪B 并集 (union) A 与 B 至少有一个发生

A ∩B = ∅ A 与 B 不相交 (disjoint) A 与 B 互不相容 (互斥, mutually exclusive)

Ac 或 A A 的补集 (complement), A + Ac = Ω A 与 Ac 为对立事件

A−B 差集 (difference) A 发生而 B 不发生

若样本空间 Ω 可划分为一系列两两互不相容的事件 A1, A2, · · · , An, 且 A1 ∪A2 ∪ · · · ∪An = Ω,即

n⋃

i=1

Ai =Ω,则称 A1, A2, · · · , An为 Ω的一个分割 (partition),或称 A1, A2, · · · , An

是一个完备 (exhaustive) 事件组. 若干个事件的交集 A1 ∩A2 ∩ · · · ∩An 则可记为n⋂

i=1

Ai.

后面还会遇到其他类型的事件关系, 如 A 与 B 相互独立, 这在概率论及其实际应用中

占有很重要的地位, 稍后再行展开.

在公式表达经常会遇到求和号∑和连乘号

∏, 其基本形式如下:

n∑

i=1

xi = x1 + x2 + · · ·+ xn

n∏

i=1

xi = x1x2 · · ·xn

在不至于引起歧义时, 为了追求方便, 上下标有时也略去不写.

1.1.2 基本计数原理与技巧

概率的计算通常离不开排列组合等相关的计数技巧(counting technique) 与计数原理.

基本计数原理有两个:加法原理(addition principle) 和乘法原理(multiplication princi-

ple). 加法原理的要义是: 做一件事情,完成它有 n类办法,在第 1类办法中有 m1 种不同的

方法, 在第 2 类办法中有 m2 种不同的方法, · · · , 在第 n 类办法中有 mn 种不同的方法, 那

Page 3: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 3

么完成这件事情共有 m1 + m2 + · · ·+ mn 种不同的方法. 乘法原理的基本要义是: 如果完成

一个事件可以分解为 n个独立的步骤,每个步骤均有 m种实现方式,那么,完成这一事件总

共可以有 m× n 种方法. 通常用一句话概括这两个原理的用法: 分类问题用加法, 分步问题

用乘法.

排列组合是高中数学训练的一个重点. 这里不再重复, 仅列出常用概念的记号、定义与

公式, 以便回顾.

定义 1.1 (阶乘) 阶乘(factorial), 即阶乘式的乘法, 定义如下:

n! = n× (n− 1)× (n− 2)× · · · × 3× 2× 1 (1.1)

特别地, 规定 0! = 1.

有时还可能遇到双阶乘(double factorial), 其定义为

n!! =

n× (n− 2)× · · · × 4× 2, n为偶数;

n× (n− 2)× · · · × 3× 1, n为奇数(1.2)

仍规定 0!! = 1

在 R中, 计算阶乘的命令为 factorial(). 例如, 求 10! 的命令为

factorial(10)

答案为 3628800.

定义 1.2 (排列) 排列(permutation) 是指从 n 个不同元素中无放回 (without replace-

ment)地抽取 r(r 6 n)个元素所排成的一列 (考虑元素的先后次序).此排列的总数记为 nPr,

又记为 Prn 或 Ar

n(A 是排列的另一英文 Arrangement 的首字母). 排列的计算方式如下:

nPr =n!

(n− r)!(1.3)

特别地, 有 nPn = n!.

本书采用 nPr 这一记号,这与国外多数教材比较匹配,与一般科学计算器上的记号也是

相符的. 但国内似以 Prn 或 Ar

n 为主导. 通常行文中, “排列” 既可能指元素的一种排序方式,

又可能指所能可能排列的总数, 读者需要根据上下文来理解.

定义 1.3 (组合) 组合(combination)是指从 n个不同元素中无放回地抽取 r(r 6 n)个

元素并成一组 (不考虑元素的先后次序),记为 nCr 或 Crn 或

(n

r

). 或者说,组合数其实考虑

的是 n 个不同元素中无放回地抽取 r(r 6 n) 个元素, 可以构成的不同子集的个数. 组合的

计算方式如下:

nCr = nPr

r!=

n!(n− r)!r!

(1.4)

特别地, 规定 nC0 =n Cn = 1.

排列组合的运算技巧非常丰富,也总出现在各种数学竞赛的题目中. 然而对概率论和统

计学的学习而言, 这些技巧并不处于核心地位. 故这里不再详细展开.

R中计算组合的命令为 choose(n, k), 给出的是 nCk 的值. 例如, 求 10C5 的命令为

Page 4: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

4 R 语言统计学基础

choose(10, 5)

答案为 252.

R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合

与阶乘的乘积来求. 例如, 求 10P5 时, 可利用关系式 10P5 =10 C5 × 5!, 输入如下命令:

choose(10, 5) * factorial(5)

答案为 30 240.

1.2 概率的计算方式与公理化定义

概率(probability) 是什么? 这其实是一个很难回答的问题, 答案也不统一. 这里不妨先

引用一段美国统计学家福尔克斯 (Leroy Folks) 的话①:

科学理论是建立在没有定义(或定义得不好)的名词上的. 定义质量,力和加速度的尝试

都是不满意的,然而依据建立在这些名词上的理论,飞机在飞,火车在行驶,卫星在围绕地球

运行. 电子有时描述为粒子, 有时为波, 有时既是粒子也是波, 即使这个词没有确切定义, 而

晶体管技术仍在前进. 概率存在类似的情况. 虽然概率这个词没有明确的定义, 但统计方法

和概率模型却证明它们自身很有用.

理想中总希望对每个概念都进行精确定义,然而并不总能做到这一点. 作为概率论的核

心, “概率”这一概念本身就是模糊不清的. 然而正如上面的引文所言: 这并不影响概率论的

魅力与应用. 正确地理解这一点, 是大学阶段概率统计学习的重要前提. 在形式化地给出概

率的公理化定义之前,这里先简要介绍概率的几种计算方式 (或称实现方式). 它们在概率的

公理化定义出现之前就已经存在, 并且更为直观.

1.2.1 古典概率

通常人们最为熟悉的概率就是古典概率(classical probability), 其问题形如: “从装有

10 个红球和 5 个白球的盒子中随机取出一球, 请问该球为红色的概率多大?” 答案显然为

10/15 = 2/3. 这里的 “随机取出一球”(或描述为 “任取一球”), 实际是指 “每个小球被取中

的可能性相同”, 同时盒子中的小球个数也是有限的 (这样能保证分母为有限的整数). 这些

隐含的意思对于概率计算非常关键.实际上,试验结果的 “有限性”与 “等可能性”正是古典

概率计算的先决条件.

定义 1.4 (古典概型) 概率论中把满足下列条件的概率模型称为古典概型:

(1) 试验的所有可能结果是有限的;

(2) 试验的每一个结果出现的可能性相同;

(3) 事件 A 的概率 [记为 P (A)] 定义为

P (A) =事件A包含的可能结果个数

所有可能结果的个数(1.5)

=事件 A 中包含的样本点数

样本空间中的样本点数(1.6)

① 福尔克斯: 统计思想 [M]. 魏宗舒、吕乃刚, 译. 上海: 上海翻译出版社, 1987: 55.

Page 5: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 5

由古典概型中计算出来的概率就是所谓的古典概率.

之所以称为古典,是因为这种概率被经典数学家们,如 Blaise Pascal (1623—1662)、Pierre-

Simon Laplace (1749—1827) 等人研究得最早、最透彻. 其中 “事件 A 包含的可能结果” 通

常也称为有利结果(favorable outcomes), 这里的 “有利” 不是对谁有利的意思, 而只表示这

是此时关注的结果 (outcomes of interest). 由于假定了每个结果发生的可能性相等, 古典概

型又称为等可能概型, 但严格来说等可能概型并不仅仅局限于古典概型, 后面我们将明了这

一点.

要注意的是, 并不是一个事件有 n 个可能结果, 这 n 个结果的可能性就是相同的. 这

方面有一个最简单的例子: 假设我们每天都要出门上班 (上课), 此时只有两种可能: 出车祸,

不出车祸. 如果这两个结果是等可能的, 我们还能放心地出门吗? 实际上, 出车祸的可能远

低于不出车祸的可能. 概率模型中的 “等可能” 只是一种内在的模型假定, 它不一定是真实

的事实. 只有当事实能够与这一前提假定相一致, 才能运用等可能概型来做计算; 一旦事实

不能满足这种假定, 就不能使用 “等可能” 的古典概型来计算概率. 这一点务必牢记.

这里仅以几例回顾相关计数技巧在古典概型中的应用.

例 1.1 (生日问题) 宿舍中 6 个人, 求 6 人生日 (只考虑月和日) 各不相同的概率 (假

设 1 年有 365 天).

解 设 6 人依次排队 “选择” 生日. 第 1 人 “选择” 生日时, 共有 365 天可选; 第 2 人

再选时, 为避开第 1 人的生日, 共有 365 − 1 = 364 天可选. 依次类推, 并各自相乘, 即得有

利结果数. 这实际上是 365 选 6 的排列数. 而所有可能结果数显然为 3656. 故所求概率为

365P6/3656.

R中计算的命令为

choose(365,6) * factorial(6) / 365^6

答案是 0.959 5.

实际上利用 R可以很快算出任意人数宿舍中每个人的生日各不相同 (或至少有两人生

日相同) 的概率, 这将留作练习供大家思考.

例 1.2 n 张奖券中有 r 张有奖, 共有 k 个人购买, 每人一张, 其中至少有一个人中奖

的概率为多少 (k < r)?

此题直接去计算有利结果不太可行,因为情况众多,难以一一列举,故取其对立事件,即

“一个人都没有中奖”(设为事件 A),并计算其概率;则 P (Ac) = 1−P (A)即是所求概率.而

要保证一个人都不中奖, 最简单的方法, 莫过于奖池的奖券都是不带奖的, 即所有摸出的奖

券 (k) 都从没有奖的奖券 (n− r) 中抽取. 而所有可能结果显然为(

n

k

). 故所求概率为

P (Ac) = 1− P (A) = 1−

(n− r

k

)

(n

k

)

例 1.3 (抽签问题) 袋中有 a 个白球、b 个黑球, 无放回地每次从中取出一球, 求第

k(k 6 a + b) 次取到黑球的概率.

Page 6: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

6 R 语言统计学基础

解 这里提供两种解法. 令 X = 第 k 次取到黑球.(1) 排列法. 假设先对每个小球进行编号, 然后把每个小球看成不同的小球, 并把取出

的小球依次排入 a + b 个方框中. 则样本空间的基本事件数为 a + b 个球在 a + b 个方框上

的全排列, 此排列数为 (a + b)!.

第 k 次取到黑球相当于首先在第 k 个方框上放入黑球, 这共有 b 种排法; 然后在剩余

的 a + b− 1 个方框内排剩下的 a + b− 1 个球 (不论黑白), 这共有 (a + b− 1)! 种排法. 由于

这是分步问题, 使用乘法原理, 有利结果 X 的事件数为 b(a + b− 1)! 种. 故所求概率为

P (X) =b(a + b− 1)!

(a + b)!=

b

a + b

(2) 组合法. 排列法假设每个小球都有区别. 实际上, 更直观地, 每个小球除了颜色之外

并无任何不同, 用组合法应当更合常理. 将小球取出后, 仍将其依次放入 a + b 个方框中. 此

时, b 个黑球在 a + b 个方框的所有不同放法的组合数为

(a + b

b

)(因为 b 个黑球之间没有

区别, 也就不需要考虑其先后排序, 因此是组合数), 而这个数实际上就是 b 个黑球被取出的

不同取法数, 即样本空间中的基本事件总数.

第 k 次取到黑球相当于首先在第 k 个方框上必须放入黑球,其余的 b−1个黑球可以任

意地选择剩下的 a+ b− 1个方框中的任意 b− 1个方框放入,此时的组合,共有(

a + b− 1b− 1

)

种. 这也就是有利结果数. 故所求概率为

P (X) =

(a + b− 1

b− 1

)

(a + b

b

) =

(a + b− 1)!(b− 1)!a!(a + b)!

b!a!

=b

a + b

此题的重要性在于它解决了抽签或抓阄法的公平性问题. 由于 a、b 只是提前确定好的

球数, 即常数, 而 k 相当于抽签顺序. 此例中我们看到第 k 次取到黑球 (类似于标有中奖的

签) 的概率与 k 本身无关, 而仅与黑白球事先的比例相关.

同时也可看到,同样的题目,在计算概率时,所使用的样本空间可以不同 (这里分别用排

列法和组合法计算了各自的样本空间), 由此得到的有利结果的样本点也不尽相同. 但只要

样本空间的建立是合理的, 便可在各自空间下得到相同的概率. 在学习完独立性概念后, 还

将对此题进行更深入的讨论.

例 1.4 (三门问题) 三门问题(Monty Hall problem)又直译为蒙提 ·霍尔问题,出自美国

的电视游戏节目 Let’s Make a Deal,问题名字来自该节目的主持人蒙提 ·霍尔 (Monty Hall).

情境大致如下: 你会看见三扇关闭了的门, 其中一扇的后面有一辆汽车, 选中后面有车的那

扇门可赢得该汽车, 另外两扇门后面则各藏有一只山羊. 当参赛者选定了一扇门, 但未去开

启它的时候, 知道门后藏有什么的节目主持人会开启剩下两扇门的其中一扇, 露出其中一只

山羊. 主持人其后会问你要不要选择另一扇仍然关上的门. 问题是: 换另一扇门会否增加参

赛者赢得汽车的概率? 这里假定所有人的偏好都是想赢得汽车而不是山羊.

解 答案是会, 虽然这似乎违反直觉 (直觉应当回答换与不换一个样, 都是 50% 的概

率). 如果一开始就选对了汽车所在的门,那么你改变选择就会输, 输的概率是 1/3; 如果你

Page 7: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 7

一开始选错了 (概率是 2/3),那么你改变选择就能赢, 主持人是否打开一扇后面有羊的门,

不会改变这一点. 所以, 换一扇门而赢得汽车的概率是 2/3.

这个问题曾引起很大的争议,许多成名的数学家,数学和统计学博士,以及此类问题的爱

好者均不愿意相信 2/3这一结果.相关的探讨有许多,大家可以搜索 “三门一羊”或 “Monty

Hall Problem”, 可以搜到许多解释. 这里不详细展开, 仅作为一个引例, 以期激发同学们对

概率问题的兴趣. 会编程的同学可以使用软件来模拟这一问题, 得出经验上的论证.

实际上, 还有一些心理学家以实验的方式研究这一问题解决过程中的认知表征问题,可

以为心理学专业的同学提供一个研究的样板:心理学不仅关注人怎样做出正确的推理, 还关

注人为什么会做出错误的推理①.

1.2.2 经验概率

古典概型的概率基于等可能这一前提, 但生活中的许多事件并不总是 “等可能” 的. 例

如工厂生产的产品, 有正品、有次品, 正常的生产线中总是次品占极小的比例; 又如某学科

成绩的优秀率, 也总是一小部分学生得优, 而多数不得优. 诸如此类的问题就不适宜使用古

典概型,且无法通过预先计算的方式去推理其概率,而必须加以试验,等试验结果出来后,才

可能知道其 “概率”为多少. 如次品率,通常是以大量随机抽取的样品中的次品数,除以抽取

的样品总数得出.这实际上是个 “频率”(relative frequency). 直观来讲,当试验的次数足够多

时, 使用频率来作为 “概率” 是合理的, 此时的频率应当会稳定于某个理论中的真实 “概率”

值. 这种概率就称为经验概率(empirical probability), 意指必须经过试验才能确定的概率.

定义 1.5 (经验概率) 经验概率又称概率的统计定义, 其基本思想如下:

(1)用来确定某一事件 A的是否出现的试验可大量重复 (理论上常视为无限次)地进行;

(2) 在 n 次重复试验中, 记 m 为事件 A 出现的数次, 则记其频率为 fn(A) =m

n;

(3) 经由大量的观测发现, 当 n 充分大时, fn(A) 会稳定于某个常数 p 附近. 此时就称 p

为频率的稳定值, 即经验概率值.

注意这里第 (3)点并不能写成如下形式: limn→∞

fn(A) = p. 这是因为 fn(A)并不总是随着

n 的增大而无限接近于常数 p, 而有可能会大于 p, 等于 p, 或小于 p. 例如抛一枚均匀的硬

币, 理论上的正面 (Head, 简记 H) 向上与反面 (Tail, 简记 T) 向上的可能性是一样的. 但在

做试验时,抛 100次时可能正好出现 H:T=50:50的情况,而第 101次时就可能出现 50:51的

可能; 随着次数的增多, 频率反而偏离了常数值. 因此, 它不能用简单的极限语言来描述, 而

只能笼统地说: 随着 n 变大, fn(A) 稳定于 p 的可能性应当更大一些.

有同学可能会想到, 这似可用如下改进形式的极限语言表达:

limn→∞

P (|fn(A)− p| > ε) = 0

① 这方面感兴趣的同学可以参考王宝玺、向玲、张庆林 2006 年发表于《心理发展与教育》的《表征影响三门问

题解决的实验研究》及华裔经济学家 Keith Chen(2008) 发表于 Journal of Personality and Social Psychology 的

How Choice Affects and Reflects Preferences: Revisiting the Free-Choice Paradigm 一文, 可以对这一问题有更

深入的了解. 如果大家以后进一步了解杰出的心理学家 Amos Tversky(1937—1996) 和 Daniel Kahneman(1934—

2002 年获诺贝尔经济学奖) 的工作, 可以发现研究人如何犯错竟然也可以获诺贝尔奖. 他们的主要文献可参见《不确定

状况下的判断: 启发式和偏差》(2013, 中国人民大学出版社) 和《思考, 快与慢》(2012, 中信出版集团股份有限公司) 两

本书.

Page 8: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

8 R 语言统计学基础

式中:ε 为任意小的正数; P (·) 为概率函数.

但是这仍然不能解决两个重要问题:①如何证明具有上述性质的 p是一个真实的存在?

② 为了定义 “概率” 本身, 在论证过程中就仍需要用 “概率趋于 0” 来论证, 这存在循环论

证的不足. 因此, “概率是频率在试验次数趋于无穷时的极限值” 这一说法, 在逻辑上并不牢

靠. 倒不如承认, 经验概率只提供了一种估算概率的近似方式, 而不是一种定义概率的精确

方式. 在现实中, 若基于过往经验发现这一估算值具有重要参考价值, 便可放心应用. 实际

上, 当日常生活中说 “某某高中高考的重点率为 80%” 之类的估算, 正是经验概率的具体例

子. 若过往多年该校的重点率均在 80% 左右, 则可估算未来一年, 仍将有约 80 % 的该校高

考生能够进入重点大学.

1.2.3 主观概率

古典概率和经验概率都要求试验在相同条件下可以重复进行的, 但这一点也并非总能

得到满足. 很多事件在一定条件下只会发生一次, 例如作为某个高三学生, 他能否在今年的

高考中考上重点大学, 就是一次性事件, 不存在多次重复的可能 (尽管可以选择来年再考一

次, 也不是完全相同条件下的重复试验, 因为那时试卷已经不同, 且考生的知识能力、心理

状态也会发变化). 即便如此, 我们也常说:“该生有八成的把握能考上重点.” 类似地, 人们也

常在某项比赛之前预测: “A 队有九成的把握夺冠.” 医疗专家也会在手术之前估计: “手术

成功的可能性在 80% 以上.” 这些语言在生活中并不少见, 也不难理解.

这实际上就是主观概率(subjective probability), 它表示观察者基于其经验对事件发生

可能性的主观信念. 人们往往依据主观信念而行动, 并根据行动结果来调整其信念, 学术

上常将行动前的主观信念称为先验概率(prior probability),将行动后的调整信念称为后验概

率(posterior probability). 基于既往经验给出先验概率, 并根据后续发生的行为不断调整后

验概率, 是符合人类认知合理性和真实性的策略. 尤其是对发生次数不是很多的行为, 使用

这种方法来估算概率,似乎比基于 “(相同条件下的)多次重复试验”而得出的频率化概率更

具现实可行性.

但主观概率是不是一种 “概率”, 历史上其实有过很大的争议, 到现在也没有定论. 其主

要难点就在于 “主观信念” 的主观性和任意性, 能否成为精确的数学推导和真实世界中的科

学应用的理论基础. 由此衍生出来统计学上的主观概率学派, 即贝叶斯学派, 与基于频率观

点的频率学派,在整个 20世纪争论不休,至今也未能握手言和.但是这种争议并没有妨碍贝

叶斯学派和频率学派的发展,尤其是前者,在 20世纪末随着计算机硬件和软件的进步,发展

尤为迅速, 在自然科学和社会科学中的统计应用也方兴未艾, 并且取得诸多有用的成果. 但

在入门统计学中, 通常只学习频率学派统计学的基本观点与技术①.

1.2.4 几何概率

先问这样一个问题: “从自然数集合中任取一数, 问此数为 1 的概率为何?” 直观上很容

① 关于贝叶斯学派的统计观点, 感兴趣的同学可参见茆诗松的《贝叶斯统计》(中国统计出版社, 2012),韦来生、

张伟平的《贝叶斯分析》(中国科学技术大学出版社, 2013), 韩明的《贝叶斯统计学及其应用》(同济大学出版社, 2015),

唐尼 (Allen B. Downey) 的《贝叶斯思维: 统计建模的 Python 学习法》(人民邮电出版社, 2015), 克鲁斯克 (John K.

Kruschke) 的《贝叶斯统计方法: R 和 BUGS 软件数据分析示例》(机械工业出版社, 2015) 等新近教材或其他专著,

这里不去详细展开.

Page 9: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 9

易想出答案应当为 1/∞ = 0. 这里的 “任取”也是 “每个数被取中的可能性相等”的意思,应

当也是一种等可能概型. 但与古典概型不同, 这里的样本空间不是有限的, 而是无限的. 当

然,此问中的有利结果仍是有限的. 实际上还有有利结果与样本空间均为无限的情形. 例如,

在边长为 1的正方形中内切一圆. 现往该正方形内随机抛点,问点在圆内的概率为多少? 实

际上不论是正方形内还是在其内切圆内,均可抛入无限个点, 但因为点进入正方形任一小区

域内的可能性是相同的, 于是很自然地会想到, 用该圆的面积除以正方形的面积, 就应当是

所求的概率, 即(

12

)2

π = π/4.

上述的概率模型正是几何概型, 由此得出的概率称为几何概率(geometric probability).

定义 1.6 (几何概型) 几何概型的基本思想如下:

(1) 某一随机现象样本空间 Ω 可表示为几何上的某一区域, 其度量大小 (通常为长度、

面积或体积等) 记为 SΩ ;

(2) 任一点落入 Ω 中任一子区域内的可能性相同;

(3)事件 A可以表示为 Ω 中的一个子区域,其度量大小记为 SA,则定义事件 A的概率

P (A) =SA

SΩ(1.7)

可以看出, 几何概型其实是古典概型的一个自然延伸, 它们都是等可能概型, 不同在于

古典概型是有限情况下的等可能, 而几何概型是无限情况下的等可能.

了解几何概率后, 可以更好地问答以下疑问. 我们知道不可能事件的概率为 0, 必然事

件的概率为 1. 那么, 概率为 0 的事件是否就是不可能事件? 概率为 1 的事件是否就是必然

事件? 在一般情况下, 答案是肯定的. 然而在几何概型中, 回答就不那么简单了. 例如, 前面

提及的 “从自然数集合中任取一数, 此数为 1” 的概率为 0, 但它并不是不可能事件; 对应地,

“从自然数集合中任取一数, 问此数不为 1” 的概率为 1, 但这并不是必然事件. 理解这一点,

对于深入理解概率论的理论内容是很重要的.

求几何概率时, 重要的工作是将事件转化为平面或空间图形, 标志清楚样本空间及事件

的区域, 并求出相应的度量大小, 其过程通常涉及基本的定积分知识. 下面以两例展示几何

概型的应用.

例 1.5 甲乙两地下情报人员约定明日上午 9:00 至 10:00 在马蹄湖畔见面, 并约定

先到者只等 10 min, 若 10 min 内另一个还不到来就取消会面自行撤离. 设两人在 9:00 至

10:00 到达马蹄湖畔的可能性相同, 求甲乙两人成功会面的概率.

解 以 9:00为坐标原点建立坐标系 (单位: min),横轴为甲到达的时间 (x),纵轴为乙到

达的时间 (y), 则两人到达的所有可能的区域为左下方顶点为原点, 边长为 1 的正方形. 此

即样本空间.

设 A = 甲乙两能够会面. 则其等价条件为|x− y| 6 16, 0 6 x, y 6 1. 在坐标系内画出

此不等式的区域, 其面积占正方形面积之比, 即为所求概率 (图 1.1).

P (A) =1− 2× 1

2× 5

6× 5

61

=1136

Page 10: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

10 R 语言统计学基础

图 1.1 甲乙两人会面时间

例 1.6 平面上划有间隔为 d(d > 0)的平行线,随机往该平面上抛一枚长度为 c(c < d)

的针, 求此针与任一平行线相交的概率.

解 此例称为通常称为 Buffon 投针问题 (Buffon’s Needle Problem). 以 y 表示针的中

点与最近一条平行线的距离, 并以 θ 表示针与此直线的交角 (图 1.2).

图 1.2 Buffon 投针问题

则样本空间为满足如下条件的区域:

0 6 y 6 d

2, 0 6 θ 6 π

画出图形后, 可知此样本空间实为面积为 SΩ =dπ

2的矩形区域 (图 1.3).

而针与任一平行线相交 (记为事件 A) 的等价条件为 y 6 c

2sin θ. 其面积为:

SA =∫π0

c

2sin θ dθ = − c

2cos θ

∣∣π0

= c

故所求概率为

Page 11: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 11

P (A) =SA

SΩ=

c

2

=2c

图 1.3 Buffon 投针问题的样本空间与有利结果

此题的奇妙之处在于可以通过事先画好间隔的平行线 (如规定 c = 2 cm) 和指定长度

的针 (如规定 d = 1 cm) 来反过来推导 π 的近似值. 假定通过计算机模拟, 在投了充分多次

的 n 次针之后, 与平行线交了 m 次. 此时 P (A) ≈ m/n. 故

m

n≈ 2c

dπ=⇒ π ≈ 2nc

dm

有兴趣的同学可自行利用计算机软件编程实现上述模拟. 这种模拟法称为蒙特卡洛模

拟(Monte Carlo Simulation), 是随着计算机软件的兴起而崛起的一种统计模拟方法, 在工程

和网络领域应用广泛, 值得关注.

例 1.7 R中已有包能够实现 Buffon 投针问题及一系列相关问题的动画模拟, 这就是

谢益辉开发的 animation包. 关于此包的更详细功能请查阅其帮助文档,这里仅呈现 Buffon

投针问题的相关演示.

解 在 R中安装并加载该包后, 输入如下语句即可观察投针问题的动画.

library(animation)

oopt = ani.options(nmax = ifelse(interactive(), 500, 2), interval = 0.05)

par(mar = c(3, 2.5, 0.5, 0.2), pch = 20, mgp = c(1.5, 0.5, 0))

buffon.needle()

buffon.needle(redraw = FALSE)

ani.options(oopt)

上述语句实际上是该包的演示语句, 可键入 ?buffon.needle 查看, 并复制到 R中演示

观看.

Page 12: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

12 R 语言统计学基础

1.2.5 概率的公理化定义

以上各种概率是在实际应用中针对不同情况而建立的概率运算方式. 这些运算方式之

间有没有共同点? 如何从数学理论的角度建立一个共同的公理基础, 以建立起严密的概率

论体系? 这方面的工作是由苏联的大数学家 Andrey Nikolaevich Kolmogorov (1903—1987)

于 1933 年完成的. 这一定义大家其实并不陌生, 在诸多教材里已经见过 (尽管其描述形式

与严密程度不尽相同). 这里提供一个非测度论形式的描述.

定义 1.7 (概率的公理化定义) 设 E 是随机试验, Ω 是其样本空间. 对于 E 中每一事

件 A 赋予一个实数 (或称定义一个实值函数), 记为 P (A), 若它能满足以下三个条件:

(1) 非负性: 对于每一事件 A, 均有 P (A) > 0;

(2) 规范性: 对于必然事件 Ω,有 P (Ω) = 1;

(3) 可列可加性 (Countable Aadditivity): 设 A1, A2, · · · 是两两互不相容的事件,即对任意 i 6= j, Ai ∩Aj = ∅(i, j = 1, 2, · · · ),则有 P (A1 ∪A2 ∪ · · · ) = P (A1) + P (A2) + · · ·则称 P (A) 为事件 A 的概率.

这三个条件称为概率论的三个公理(probability Axioms). 高中阶段的教材中, 最后一条

通常取有限状态的可加性 (针对 A1, A2, · · · , An 的有限可加性,其中 n为确定的正整数). 这

里将之推广至无限的情况, 以便应对几何概型的情况. 严格来说, 有限可加性是可列可加性

这一公理下的一个推论,是需要证明的,可以视为概率化公理化定义下的一条性质. 当然,直

观上似乎很好理解这一点. 然而并不能想当然地说 “在无限情况下成立的性质, 在有限的情

况下也一定成立”,因为数学上总是存在一些特殊的反例,使得我们在论述需要倍加小心. 更

加严格的概率论公理化定义, 可参见数学专业的概率论教材, 这里不再展开.

对于普通的、只关注实际应用的读者来说, 概率论的公理化定义似乎是 “可有可无” 的

一件事情. 某种程度上确实如此. 因为公理化定义虽然说明了 “什么是概率”, 但并没有给出

其计算方式, 具体的计算仍需按前面介绍的几种模式去实现. 然而数学理论的普遍应用, 总

是以更高程度的综合化和抽象化为前提. 我们固然可能无法了解数学抽象化的尽头在哪儿,

但不妨对之保持一种理智上的尊重. 这里的概率应当视为一种函数形式 (事件函数或集合

函数, 即从事件至实数的一个映射), 凡是满足以上三条公理的函数均可称为概率. 它以高度

抽象的形式奠定了概率论的公理基础, 在一定程度上解决了 “概率是什么” 的问题, 使得人

们可以搁置不同概率模型下概率的计算方式的区别,而关注其中的统一性. 仍引用福尔克斯

的观点, 就是:“公理化方法完全绕过了解释这一重要课题而集中于为计算概率打下基础. 公

理化方法是一个好方法, 因为对概率允许进行的运算几乎完全是一致的. ”①

例如, 对于主观概率, 只要它符合这三条公理, 仍可承认它是一种概率, 这可以搁置 “概

率的主观性” 的争议, 而将重点集中在其运算性质和实际应用上. 这对于严格意义上的概率

论的成型与推广是有很大贡献的. 当然, 理论论述上的严密性虽能使人在理智上感到放心,

但并不从直观上赋予人们实际的 “意义感”, 这种意义感仍需要大家从各种实际使用的概率

模型中结合具体情境去寻找. 学过 “操作化” 与 “概念化” 这两个概念的同学, 不妨认为概

率的公理化定义就是概率的概念化, 而各种概率模型就是对 “概率” 这一抽象概念的操作化

定义. 概念化虽能提供概率的精确刻画, 但无法让人理解真实含义; 操作化的定义虽然总有

① 福尔克斯. 统计思想 [M]. 魏宗舒, 吕乃刚, 译. 上海: 上海翻译出版社, 1987: 62.

Page 13: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 13

偏差, 但能够将抽象的概念与现实世界建立起直观关联; 概念化和操作化共同构成了概率理

解与应用的不可分割的两个维度.

这里不加证明地列出概率的一些基本性质和计算法则, 这些性质在中学阶段都应当已

经掌握:

(1) P (Ω) = 1

(2) P (∅) = 0

(3) P (Ac) = 1− P (A)

(4) 加法公式 (addition rule): P (A ∪B) = P (A) + P (B)− P (A ∩B)

1.3 条件概率、独立性与贝叶斯公式

条件概率与独立性是概率论中的最基本概念, 本节将说明它们的基本思想及与此相关

的贝叶斯公式.

1.3.1 条件概率

条件概率(conditional probability)并不是一种概率定义方式,而是概率的一种具体类型.

在实际问题中, 除了要知道事件 A 的概率 P (A) 外, 很多时候还需要知道在事件 B 已发

生的条件下, 事件 A 发生的概率, 这就是条件概率, 记为 P (A|B), 英文念作 the probabil-

ity of A given B, given 就是 “已知” 的意思. 对应地, 原来的概率 P (A) 则称为无条件概

率(unconditional probability).

以骰子 (die) 为例介绍条件概率的概念. 掷一颗骰子, 观察其出现点数. 令事件 A 表示

“出现点数小于 4”, 则 P (A) = 1/2, 如果已知事件 B 表示 “出现偶数点”, 且 B 已发生. 这

时只剩下三种可能, 即 “2 点”“4 点” 或 “6 点”. 因此, 在 B 已发生的条件下, A 发生的概率

为 P (A|B) = 1/3. 注意 P (B) = 1/2, P (A ∩B) = 1/6.

定义 1.8 (条件概率) 设 A,B 是随机试验 E 的两个事件, 且 P (B) > 0, 则称 P (A|B)

为 B 发生条件下 A 发生的条件概率, 其计算公式为

P (A|B) =P (A ∩B)

P (B)(1.8)

式 (1.8) 还有一种等价的计算方式:

P (A|B) =n(A ∩B)

n(B)(1.9)

式中: n(A ∩B) 为事件 A ∩B 中的样本点数; n(B) 为事件 B 中的样本点数. 这是因为

n(A ∩B)n(B)

=

n(A ∩B)n(Ω)n(B)n(Ω)

=P (A ∩B)

P (B)

式中: n(Ω) 为样本空间 Ω 中的样本点数.

Page 14: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

14 R 语言统计学基础

在式 (1.9)中, B 事件的发生使用原来的样本空间 Ω 缩小为 B; 或者说,由于 B 事件的

发生, 提供了一定的预测 A 事件发生的信息,故应充分利用这一信息来缩小预测的范围 (提

高预测的精度). 举个相近的例子, 公安局在查询户口信息时, 如仅知道姓名, 在网上检索时

不免搜到许多重名的人; 为了提升查询效率, 再输入其出生年月日, 就可大大缩小检索范围.

这正是新信息的作用, 它极大地缩小了检索的范围 (即样本空间).

由式 (1.8) 可很快推出概论的乘法公式:

P (A ∩B) = P (B)P (A|B) (1.10)

由于 A,B 的地位对称性, 当然也可以有

P (A ∩B) = P (A)P (B|A) (1.11)

可以证明多个事件的概率乘法公式如下 (证明留作习题):

P

(n⋂

k=1

Ak

)= P (A1)P (A2|A1)P (A3|A1 ∩A2) · · ·P (Ak|A1 ∩A2 ∩ · · · ∩Ak−1) (1.12)

下面以两例说明条件概率的应用.

例 1.8 8 个篮球中有 5 个新的、3 个旧的. 第一次比赛时, 同时取出 2 个, 用完后放

回去;第二次比赛时又取出 2个球, 求第一次取到 1个新球的条件下, 第二次取到 2个新球

的概率 (规定新球用了一次之后变成旧球).

解 设事件 A=“第一次取到 1个新球”;事件 B=“第二次取到 2个新球”. 由于第一次

比赛后, 球被放回去, 因此在 A 已发生的条件下, 再取第 2 个球时, 总球数仍为 8. 但是, 因

第一次比赛所用的一个新球已变成旧球, 其新旧比例已变化为:新球 4 个, 旧球 4 个, 故所

求的概率为

P (B|A) = 4C2

8C2=

314

此题使用了条件概率的表达形式, 并直接使用了计算样本点的方式计算 P (B|A).

R中计算的命令为

choose(4,2)/choose(8,2)

例 1.9 将 n 根短绳的 2n 个端头两两相连, 问恰好结成 n 个圆圈 (每根短绳首尾相

连) 的概率.

解 此题有多种解法. 这里使用条件概率的方式求解.

以 Ω 表示所有连接结果的全集. 设想给每个端头都编上号, 1, 2, · · · , 2n 并将其 “排成

一行” (这里并不表示现实能否将端头排成一行, 而只考虑将 2n 个点排成一行), 然后规定

第 2k 个端头与剩余的 2k − 1 个端头两两相连 k = 1, 2, · · · , n, 这样每一种连法就对应一种

接法. 此时共有 2n! 种接法, 这是因为第 1 对连法中的第 1 个端头有 2n 种选择, 与之相连

的第 2 个端头有 2n− 1 种选择; 在此基础上, 第 2 对连法中的第 1 个端头有 2n− 2 种选择,

与之相连的第 2 个端头有 2n− 3 种选择; 等等. 以此类推, 有

[2n(2n− 1)]× [(2n− 2)(2n− 3)]× · · · × (2× 1) = 2n!

Page 15: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 15

此即样本空间中的样本点数.

下面计算有利事件数. 以 A 表示 “恰好结成 n 个圆圈” 这一事件. 设想已将绳子编了

号, 1, 2, · · · , n. 以 Ak 表示第 k(k = 1, 2, · · · , n)条绳子结成一个圈. 显然,事件 A是所有 Ak

的交集, 即 A =n⋂

k=1

Ak.

现在考虑 P (A1). 此时有利结果只有 1 个, 即只有选择自己这条绳子的另一个端头, 才

能结成一圈. 而所有可能的选择有 2n− 1 个. 故P (A) =1

2n− 1.

接着考虑 P (A2|A1). 此时已经有 1 条绳子结成圈, 剩下 n − 1 条绳子可结成圈, 共有

2n−2个端头.重复考虑上面的步骤,有利结果仍然只有 1个,而所有可能结果有 2(n−1)−1 =

2n− 3 个, 故 P (A2|A1) =1

2n− 3.

如此重复进行, 可以得到如下公式:

P (Ak|A1 ∩A2 ∩ · · · ∩Ak−1) =1

2n− (2k − 1), k = 3, 4, · · · , n

于是

P (A) = P (A1)P (A2|A1)P (A3|A1 ∩A2) · · ·P (Ak|A1 ∩A2 ∩ · · · ∩Ak−1)

=1

2n− 1· 12n− 3

· · · 13· 11

=n∏

k=1

1(2n− 1)!!

1.3.2 事件的独立性

“某项考试, 甲通过的概率为 0.5, 乙通过的概率为 0.2, 两人共同通过的概率为多少?”

对这一问题, 许多同学不假思索地即可回答: 0.5 × 0.2 = 0.1. 但为什么这两个概率 (大家还

可以再去思考: 这里的概率是古典概率、经验概率还是主观概率?) 可以相乘? 这实际上是

因为有一个前提: 两人是否通过考试是互不影响的. 从概率论的术语说, 这就是事件的独立

性(independence) 问题.

定义 1.9 (两个事件之间的独立性) 同一样本空间中的两个事件 A 与 B 相互独立, 如

果它们满足如下条件:

P (A|B) = P (A)或P (B|A) = P (B) (1.13)

反之, 则称 A 与 B 是相依的(dependent).

理解一下这个定义. 这实际上是说: 事件 A 发生的概率, 没有提供任何关于事件 B 的

发生概率的信息; 反之亦然. 正是从这个角度上我们称它们之间是独立的. 或者说, 事件 A

发生的概率, 不影响事件 B 发生的概率; 反之亦然. 多个事件的独立性也可以做出类似定

义, 但稍显复杂.

Page 16: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

16 R 语言统计学基础

定义 1.10 (三个事件之间的独立性) 设 A,B, C 为三个事件,若它们满足以下三个条

件,则称 A,B, C 之间两两独立:

P (A ∩B) = P (A)P (B)

P (A ∩ C) = P (A)P (C)

P (B ∩ C) = P (B)P (C)

(1.14)

若它们还满足条件

P (A ∩B ∩ C) = P (A)P (B)P (C) (1.15)

则称 A,B, C 之间相互独立。以上定义可推广至三个以上事件的情形。

注意多个事件之间的两两独立和相互独立并不完全等价, 本章练习中将举出相应例子.

基于事件独立性的前提, 式 (1.10) 可以变为如下形式:

P (A ∩B) = P (A)P (B) (1.16)

这称为特殊乘法法则, 只有在 A 与 B 相互独立时可以使用. 如果多个事件之间是相互独立

的, 那么式 (1.16) 可以方便地拓展到多个事件之间的情形.

式 (1.13) 和 (1.16) 常用来作为判定事件之间是否独立的条件. 下面是几个例题.

例 1.10 掷一个均匀的六面体骰子两次. 设出以下事件:

A=第一次骰子的点数为 5 B=两次骰子的点数之和为 6 C=两次骰子的点数之和为 7

问: (1) A 与 B 之间是否独立? (2) A 与 C 之间是否独立?

解 (1) A=(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), 共包含 6 个样本点. 故 P (A) =636

=16.

事件 B=(1, 5), (2, 4), (3, 3), (4, 2), (5, 1), 共包含 5 个样本点. 事件 A|B 实际上是指点数和为 6 的前提下, 第 1 个骰子的点数为 5. 这只有一个样本点, 即 (5, 1). 故P (A|B) =

15.

由此可见, P (A|B) 6= P (A), 故 A 与 B 之间是不独立的.

(2) C=(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1), 共包含 6 个样本点.

事件 A|C 实际上是指点数和为 7 的前提下, 第 1 个骰子的点数为 5. 这只有一个样本

点, 即 (5, 2). 故 P (A|C) =16.

由此可见, P (A|C) = P (A), 故 A 与 C 之间是独立的.

此题需做深一步的解释. 有些同学可能觉得难以理解: 两次骰子的投掷之间本身应当

是独立的, 为什么在此基础上设立不同的事件, 仍会出现独立或不独立的结果? 这里务必要

明确: 概率论中的 “独立” 是有明确定义的, 即式 (1.13) 和 (1.16) (此题也可用此方法验证,

Page 17: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 17

请自行完成). 在已经有了定义的前提下, 就不再去探讨事件之间为什么会独立的 “本质根

源”, 而只将此定义视为判定独立性的唯一标准. 这正如人们制定了 “60 分及格 (满分 100)”

的标准后,就以此为标准划定及格或不及格,而不再去问 “59分到底与 60分差在哪儿,为什

么 59 就是不及格而 60 分就是及格” 这样的问题一样.

例 1.11 回顾例 1.3. 袋中有 a 个白球、b 个黑球, 无放回地每次从中取出一球. 前面

已经证明抽签顺序与抽签结果无关, 第 k 次抽到黑球的概率永远为b

a + b. 现考虑如下问题:

(1) 第 1 次抽到黑球与第 2 次抽到黑球之间独立吗? (2) 抽签总是有先后顺序的, 如果第 1

个人抽到签后, 当场拆开并告知其他人其抽签结果,请问后面的抽签者抽到黑球的概率仍然

是b

a + b吗?

解 (1) 不独立. 设 A1 表示 “第 1 次抽到黑球”, A2 表示 “第 2 次抽到黑球”. 显然, 根

据前面的证明结果, 应有 P (A1) = P (A2) =b

a + b.

现在来求 P (A2|A1). 事件 A2|A1 是指在第 1 次已经抽到黑球的前提条件下, 第 2 次仍

然抽到黑球. 此时共有 a + b− 1 个小球, 而有利结果为 b− 1 个 (因为已经抽走 1 个黑球).

其概率显然应当是 P (A2|A1) =b− 1

a + b− 1.

由此可见, P (A2|A1) 6= P (A2). 故第 1 次抽到黑球与第 2 次抽到黑球之间不独立.

(2)不是. 假设第 1次已经抽到黑球. 如果抽签者拆开并告知其他人抽签结果,那么根据

(1) 的结果, 此时第 2 个人抽到黑球的概率就是前面定义的 P (A2|A1) =b− 1

a + b− 16= b

a + b.

类似地,如果假设第 1次抽到白球且拆开告知其他人,则第 2个人抽到黑球的概率就应当是

P (A2|Ac1) =

b

a + b− 16= b

a + b. 故如果第 1个抽签者知道了签中的信息并告知他人,则后面

人选抽中黑球的概率会发生变化.

此题值得进一步玩味. 实际的抽签过程中, 如何切实保证抽签的公平性? 按此例中的解

释, 如果抽签者抽到签时即拆开, 实际上这种 “公平性” 就无从保证. 但若每个人依次抽签,

且抽完后同时打开, 就可以保证抽签的公平性.

有些同学可能会有疑问: 不论是否拆开签, 抽到手的签已经不会变化, 是黑的就是黑的,

是白的就是白的, 为何单单 “拆开” 这一动作, 就足以使所谓的 “概率” 发生变化? 这不妨

从信息的角度来理解. 如果自己和他人均不知道签中的信息,虽然该信息已经确定地存在签

中, 但对于所有人而言, 它仍是未知的, 因此可以看成是随机的; 然而一旦拆开, 抽中者或他

人了解这一信息, 此时随机性就已然丧失, 变成了确定性的信息. 这样一来, 基于理想的 “随

机性”(等可能性) 前提而计算出来的b

a + b也就不再成立了.

这里再对独立性这一概念啰唆几句. 从本质意义上的角度说, A与 B 之间相互独立,是

指 A 与 B 之间不存在任何关系, A 的发生不影响 B 的发生, 反之亦然. 许多教材里提到的

“我们通常从问题的实际意义入手分析事件之间是否独立” 就是这个意思. 如通常认为你穿

的鞋子的品牌不会影响今天的天气; 正常的考试中两个人是否通过是互不影响的; 等等. 然

而世界上究竟存不存在完全独立、完全不会相互影响的两个事件? 这恐怕是很难证实, 也很

Page 18: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

18 R 语言统计学基础

难证伪的命题.只是如果事件之间的关联性非常弱, 以至于从实际应用的角度而言是不必计

较的, 就可以假定独立性. 这正如我们无法制造出绝对的真空, 但只要创造出接近真空的环

境, 即可开展相应的物理实验一样. 而从概率论的角度而言, 总是假定独立性可以存在, 然

后再去推导相关的性质, 而当实际情形能够大体上符合这一条件,就将基于独立性前提而推

导出来的算法付诸实践, 得出近似的结果. 因此, 如何确定可以应用 “独立性” 这个条件, 实

际上是概率应用过程中不可或缺的一步.在实际操作中, 要么是基于既往经验和问题实际意

义的大胆假定, 要么是基于一定的概率运算进行某种程度的验证.

概率论中的独立性定义同样类似于社会研究方法中的概念及其操作化定义之间的关系.

独立在 “实质”上是想去定义两个事件之间不存在相互影响的情形,然而 “不存在相互影响”

是很难界定的, 因此, 我们选择 “A 发生的概率, B 发生的概率” 这样可操作化的方式来定

义独立性. 在概率论里, 在建立此定义后, 就不再去探讨 “实质意义” 上的独立是什么意思,

而将这种定义作为独立的 “本质” 来看待了. 这样做的好处是可以建立清晰统一的理论, 坏

处则是可能不能完全反映现实中的情形 (在练习中将看到这一点). 但在数学理论的建立过

程中, 理论本身的一致性通常是数学家考虑问题的重点, 至于理论能否完全匹配现实, 倒往

往是次一级的问题.

1.3.3 全概公式与贝叶斯公式

全概公式和贝叶斯公式 (Bayes Formula) 是概率论中经常用到的两个公式.

定理 1.1 (全概公式) 全概公式的最简单形式如下: 若 0 < P (B) < 1, 则对任一事件 A

P (A) = P (B)P (A|B) + P (Bc)P (A|Bc) (1.17)

其一般形式如下: 设 B1, B2, · · · , Bn 互不相容, 且n⋃

i=1

Bi = Ω, 若 P (Bi) > 0, i = 1, 2, · · · , n,

则对任一事件 A 有

P (A) =n∑

i=1

P (Bi)P (A|Bi) (1.18)

理解式 (1.17) 并无特别的困难, 式 (1.18) 的一般化证明从略.

例 1.12 假定吸烟者患肺癌的可能性是不吸烟者患肺癌的可能性的 10 倍. 某市烟民

率为 30%, 且 10% 的市民患有肺癌. 求吸烟者罹患肺癌的概率.

解 设 S=“烟民”, L=“肺癌”, 根据已知条件, 有 P (S) = 3/10, P (L) = 1/10, P (L|S) =

10P (L|Sc). 则所求概率为 P (L|S). 按全概公式有

P (L) = P (S)P (L|S) + P (Sc)P (L|Sc) = P (S)P (L|S) +110

P (Sc)P (L|S)

代入相关数值, 有110

=310

P (L|S) +110×

(1− 3

10

)P (L|S)

将 P (L|S) 看成未知数, 解之得 P (L|S) = 10/37. 此即所求概率.

Page 19: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 19

定理 1.2 (贝叶斯公式的事件形式) 贝叶斯公式的最简单形式如下: 若 P (A) > 0,

P (B) > 0, 则

P (B|A) =P (B)P (A|B)

P (A)(1.19)

对式 (1.19)中的 P (A)可进一步使用全概公式分解为 P (A) = P (B)P (A|B)+P (Bc)P (A|Bc).

其一般形式如下: 设 B1, B2, · · · , Bn 互不相容, 且n⋃

i=1

Bi = Ω, 若 P (A) > 0, P (Bi) >

0, i = 1, 2, · · · , n, 则

P (Bi|A) =P (Bi)P (A|Bi)

P (A)

=P (Bi)P (A|Bi)

n∑

i=1

P (Bi)P (A|Bi)

(1.20)

这里只证明式 (1.19). 实际上, 由条件概率的对称性有

P (A ∩B) = P (A)P (B|A) = P (B)(A|B)

于是自然就有

P (A)P (B|A) = P (B)(A|B) =⇒ P (B|A) =P (B)P (A|B)

P (A)

式 (1.20) 可类似得到证明.

例 1.13 一家医院的病历资料显示, 在来医院检查的 40 岁女性中, 有 1% 的人患有

乳腺癌.如果她有乳腺癌,则其放射线诊断呈阳性的概率为 80%;如果她仅是良性肿瘤,该检

测方式也会有 9.6% 的概率误诊为阳性 (假阳性). 现在, 来该院求诊的一位女性患者在做了

放射诊断得到阳性结果, 试问她患乳腺癌的概率为多大?

解 设 A=“放射线诊断为阳性”, B=“患有乳腺癌”, 根据已有信息, 知 P (B) = 0.01,

P (A|B) = 0.8, P (A|Bc) = 0.096. 所求概率为 P (B|A). 此题的树形图如图 1.4 所示.

按贝叶斯公式的简单形式, 即式 (1.19), 有

P (B|A) =P (B)P (A|B)

P (A)

=P (B)P (A|B)

P (B)P (A|B) + P (Bc)P (A|Bc)

=0.01× 0.8

0.01× 0.8 + (1− 0.01)× 0.096

≈ 0.077 6

Page 20: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

20 R 语言统计学基础

图 1.4 乳腺癌问题的树形图

可见患者真正罹患乳腺癌的概率较低. 这有些违反直觉. 实际上, 这是一道非常著名

的测试题, 研究者曾以此题测试美国的医生, 发现 95% 的医生估计, 病人患乳腺癌的概率

为 75%. 究其原因, 在于忽视了来诊女性中仅有 1% 的人患有乳腺癌这一先验概率 (prior

probability). 这种类型的概率推理错误在前面提到的 Tversky 和 Kahneman 的研究中多有

提及, 大家不妨一看.

例 1.14 Sabrina要从甲地至乙地开会. 她乘火车去的概率是 3/10,乘船,汽车或飞机

去的概率分别为 1/5, 1/10, 2/5. 如果她乘火车去, 迟到的概率是 1/4; 如果乘船或汽车, 那

么迟到的概率分别为 1/3和 1/12; 如果乘飞机便不会迟到. 结果她迟到了. 公司决定不直接

联系 Sabrina 询问原因的情况下猜测其所乘坐的交通工具. 试问: 在此条件下, 她是乘火车

去的概率为多少?

解 设事件 A表示“开会迟到”, B1, B2, B3, B4 分别表示“乘火车”“乘船”“乘汽车”

“乘飞机”这四个事件. 显然 B1, B2, B3, B4 构成一个完备事件组. 由已知条件有:

P (B1) =310

P (B2) =15

P (B3) =110

P (B4) =25

P (A|B1) =14

P (A|B2) =13

P (A|B3) =112

P (A|B4) = 0

所求概率为 P (B1|A). 由贝叶斯公式 [式 (1.20)], 有

P (B1|A) =P (B1)P (A|B1)4∑

i=1

P (Bi)P (A|Bi)

=

310× 1

4310× 1

4+

15× 1

3+

110× 1

12+

25× 0

=12

Page 21: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 1 章 概率基础 21

1.4 本 章 习 题

1. 10 本书任意放在书架上排成一排, 求指定的 4 本书放在一起的概率.

2. n 个人围一圆桌而坐, 求 A、B 两人相邻而坐的概率.

3. 把 n 个 “0” 与 n 个 “1” 随机排列, 求没有两个 “1” 连在一起的概率.

4. 一个研究团队有 4 个博士生和 20 个硕士生. 将这 24 人随机平均分成 4 组, 每组 6 人,

求:

(1) 每一组正好有一名博士生的概率;

(2) 4 个博士生均在一组的概率;

(3) 在前面问题的基础上考虑如下问题: 给定一个元素个数为 n 的集合, 设 n1,

n2, · · · , nk 为 k 个非负整数, 且 n1 + n2 + · · ·+ nk = n. 将这个集合分割成 k 个互不相

交的子集, 使得第 i 个子集的元素个数正好为 ni, i = 1, 2, · · · , k. 问一共有多少种分割

法.

5. 某贴吧曾发表过一个自称是前中国男足国家青年队队员的帖子, 基于他的观察分析了

其同龄人参加足球培训的情况. 现将原文抄录如下:

当时踢球的孩子分三种: 第一种, 有很多家里特别特别有钱, 是抱着玩的态度来的.

比如我有两个当时的小伙伴, 是南方的, 家里特别有钱. 他当时跟我的教练谈话, 被我

听见了, 意思大概是: 送北方来学球, 因为北方足球环境好, 第二在南方孩子怕被绑架.

孩子将来踢出来高兴, 踢不出来就当练好身体, 回去接班做买卖 (这可能是我认识的第

一个土豪). 第二种, 是家里条件不错, 不爱念书, 因为踢球可以不用读书. 第三种, 父母

热爱足球或自己喜欢足球. 所以说, 当一开始, 我们中国足球的选材面本身就很窄, 也

只有三分之一的孩子是真正踢足球· · · · · ·试问: 假定 “真正踢足球的孩子” 就是帖子中所谓的第三种孩子. 从概率论的角度, 上

面的 “当一开始, 我们中国足球的选材面本身就很窄, 也只有三分之一的孩子是真正踢

足球 · · · · · · ” 中的 “三分之一” 这一概率论断有没有问题? 请结合所学的概率模型的相

关知识具体叙述你的理由.

6. 在区间 [0, 1] 内随机取两数, 求两数之和小于75的概率.

7. A、B 两船驶向一个不能同时停泊两艘船的码头, 它们在一昼夜内到达的时间是等可能

的. 如果 A 船停泊时间为 1 小时, B 船停泊时间为 2 小时, 求任何一艘都不需要等待

码头空出的概率.

8. 设 a > 0, 有任意两数 x, y, 且 0 < x < a, 0 < y < a, 求 xy <a2

4的概率.

9. 某动物从出生活到 10 岁的概率为 0.8, 活到 15 岁的概率为 0.5, 求现年为 10 岁的该动

物活到 15 岁的概率.

10. 10 个产品中有 4 个次品, 从中任取两个. 已知其中有一个为次品, 求另外一个也为次品

的概率.

11. 在做一道 4 选 1 的选择题时, 学生遵循如下策略: 若知道答案则正确选出, 否则就随机

地蒙一个. 设其知道答案的概率为 p, 则其蒙题的概率为 1− p. 已知该学生做对了此选

择题, 求他是瞎蒙的概率.

Page 22: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

22 R 语言统计学基础

12. 某地区男性中的色盲率为 5%, 女性的色盲率为 0.25%, 且此地男女比例为 22:21. 现从

中任取一人, 发现此人为色盲. 问此人为女性的概率.

13. 考虑生有两个孩子的家庭.

(1) 如果知道其中至少有一个男孩,两个都是男孩的概率多大?

(2) 已知老大是女孩的条件下, 老二也是女孩的概率是多少?

14. 盒子中有三张形状相同但颜色不同的牌. 一张两面都是红色, 一张一面红一面黑, 一张

两面都是黑色. 任意抽出一张放在桌面上, 发现向上一面为红色. 求其背面也是红色的

概率.

15. 柴教授每天都去健身房参加健身班.下雨天,柴教授去健身房迟到的概率为 0.3,晴天迟

到的概率为 0.1. 根据天气预报, 明天下雨概率为 0.7.

(1) 求柴教授明天迟到的概率.

(2) 已知第二天柴教授已经迟到, 求第二天下雨的概率.

16. 监狱中有三个囚犯,监狱长已经通知将释放其中两名, 但未透露具体姓名. 囚犯 A偷偷

地请求守卫告知谁未被释放,但被守卫拒绝. A继而请求仅告知另外两人中被释放的一

位. 守卫做了如下思考: 囚犯 A 已经知道三人中将有两人释放, 故其被释放的概率是

2/3. 但若他进一步知道另外两人中的哪一名被释放, 则其被释放的概率将上升为 1/2,

因为剩下两人中必将有 1 人被释放. 因此, 告知这一信息会改变 A 被释放的概率, 于是

他拒绝了. 请问: 守卫的思考方式有没有问题?

17. 两两独立的事件, 是否能够保证它们之间就是相互独立的? 试看下面的问题.

袋中有 4 个一模一样的小球. 第 1 个小球写有数字 “1”, 第 2 个小球写有数字 “2”, 第

3 个小球写有数字 “3”, 第 4 个小球写有数字 “1, 2, 3”, 即第 4 个小球上面 “1”“2”“3”

这三个数字都有. 现随机是从中取出一球, 并引入三个事件:

P (Ai)= 随机抽出一球, 球上有数字 i (i = 1, 2, 3)

求: (1) 请问 A1, A2, A3 之间是否两两独立?(2) 请问 A1, A2, A3 之间是否独立?(3) 结合

上述两问, 你能得到什么结论?

18. 证明:

P

(n⋂

k=1

Ak

)= P (A1)P (A2|A1)P (A3|A1 ∩A2) · · ·P (Ak|A1 ∩A2 ∩ · · · ∩Ak−1)

19. 证明: 空集事件与任意事件独立.

20. 利用 R求出规模为 20∼30 人的班级中, 至少有两个人生日相同的概率 (只考虑月和日).

假定一年 365 天, 且每个人出生在任一天的概率相同.

Page 23: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

“数学家是台把咖啡转换为定理的机器”,这是匈牙利数学家 Paul Erdos(1913—1996)的

一句名言. 随机变量部分的内容数学意味较浓, 较好地体现了高等数学的基本要求. 掌握概

率论的知识, 既要能够把概率计算与现实世界建立直觉对应,也需要能够充分把握数学语言

的严谨性和抽象性.

2.1 随机变量及其分布函数

2.1.1 随机变量的定义与类型

前面曾简单地说 “用来表示随机现象结果的变量就是随机变量”. 这一解释很直观也很

实用, 但太过粗糙, 有必要进一步深化. 实际上, 许多随机事件都可以用数量来标识. 例如:

掷一颗骰子试验所掷出的点数;抽样检查产品质量试验, 出现的次品个数等. 即使是对于那

些没有采取数量标识的事件,也可以把它们用数量来标识. 例如,掷硬币试验中,将 “出现正

面” 记为 1, “出现反面” 记为 0. 这样, 对于试验的结果, 就都可以转换成数量语言来描述.

抽象地, 可做以下定义.

定义 2.1 (随机变量) 设 E 是一随机试验,其样本空间为 Ω,如果对于每一个 ω ∈ Ω,都

有实数 X(ω)和它相对应,这样就得到一个定义在 Ω 上的单值实函数 X(ω),则称 X = X(ω)

为随机变量(random variable). 同时, 若 X 为一随机变量, 则任何关于 X 的函数 f(X) 也是

随机变量.

细分析上述定义. 随机变量的实质是一个函数, 它 “定义在 Ω 上” 的意思是说, 其定义

域是样本点 (也就是一系列的事件). 也就是说, 随机变量建立的是从样本点 (事件) 到实数

的单值映射, 是将一些具体的事件 (不论它是否用数字表示)“加工” 成实数的数学过程. 不

同的样本点可以对应不同的实数, 也可以对应相同的实数; 这一函数的自变量 (样本点) 本

身可以是实数, 也可以不是实数, 但因变量一定是实数. 随机变量的值随着试验结果的不同

而不同, 在试验之前只知道它可能的取值范围, 而不知道其取什么值; 但又由于试验的各个

结果的出现是有一定的概率的, 于是随机变量的取值也有一定的概率.这是随机变量与普通

变量的本质区别.

随机变量一般用希腊字母或大写英文字母来表示,其取值通常用小写字母表示. 现实中

可以用随机变量表示的现象有很多. 以下是一些具体例子.

例 2.1 掷硬币试验, 掷出正面记为 1 分, 掷出反面记为 0 分. 如果用 A 表示掷一次

Page 24: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

24 R 语言统计学基础

硬币的得分, 则 A 是一个随机变量.

例 2.2 设某射手每次射击命中目标的概率是 0.8, 若其连续射击直到命中为止, 其射

击次数 X 的可能取值为 1, 2, ⋯, 即 X 可能取到任意一个正整数, X 也是一个随机变量.

例 2.3 某城市的地铁站每隔 5min有一辆地铁通过.若一位乘客在任一时刻到达车站

都是等可能的. 此时, 他到达车站后的候车时间 Y 是一个随机变量, 显然 Y 可以取到 [0, 5]

上的任一个值.

利用随机变量几乎可以表示出感兴趣的任何事件.如上面的例 2.1中 A = 0表示 “掷出

反面”, 例 2.2 中 X = 5 表示事件 “第 5 次击中目标”, 例 2.3 中 Y > 3 表示事件 “候车时间

超过 3min” 等. 这里也可发现, 随机变量的取值情况是不同的. 例 2.1 和例 2.2 中随机变量

的取值是有限或可列无穷个 (取值个数与正整数一一对应, 它虽然无穷, 但可一一列举), 例

2.3 中随机变量的取值则是不可列的无限个, 其取值连续不断地充满整个区间. 这就引出随

机变量的两大类型.

定义 2.2 (离散型随机变量) 如果随机变量的全部取值为有限个或可列无穷个,则称其

为离散型随机变量(discrete random variable). 如果随机变量的取值可充满实数轴上的某个

区间 (a, b), 其中 a 可以是 −∞, b 可以是 ∞, 则称其为连续型随机变量(continuous random

variable).

“刨根问底” 地讲, 连续型的随机变量似乎只是一种数学抽象, 并无实际存在的可能. 这

是因为实际中的测量因其技术水平的局限, 总有一定的最小测量单位, 无法再做细分. 因此,

就实际结果而言, 多数结果都是离散的. 然而当测量单位极小, 其一定区间上的取值又极密

集时, 不如视为连续型变量更为方便. 这便是数学抽象的好处.

当然, 理论上还有既不离散、又非连续的随机变量. 这不是研究的重点.

2.1.2 随机变量的分布函数

如果还想研究感兴趣的事件 X 6 x 发生的概率, 那么还需引入一个新的重要概念: 随

机变量的分布函数.

定义 2.3 (分布函数) 若 X 是一个随机变量, x 是任意实数, 则函数 F (x) = P (X 6x),−∞ < x < ∞称为随机变量 X 的分布函数 (distribution function of random variable),简

称分布, 记为 X ∼ F (x), ∼ 读作 “服从”(is distributed as). 更精确地还会记成 X ∼ FX(x),

以表示是随机变量 X 的分布函数, 这在区分多个分布函数的情形中是很有用的.

根据上述定义, X 的分布函数 F (x) 是 X 取小于等于任意实数 x 的所有可能值的概率

之和, 故又称累积分布函数(cumulative distribution function, CDF). 比起有些笼统的 “分布

函数” 或 “分布” 的说法 (实际上日常使用中的 “分布” 一词, 既可能指这里的分布函数, 也

可能指后面提到的概率质量函数或概率密度函数, 含义较为含糊), 累积分布函数其实是更

好的名词, 虽然字数上长一些.

F (x), 即事件 X 6 x 发生的概率, 是 x 的一个实函数. 若已知 X 的分布函数 F (x), 就

可以知道 X 在任何一个区间上取值的概率. 由此可见, 分布函数完整地描述了随机变量的

变化情况. 分布函数这种既是概率又是普通函数的双重属性,使我们得以使用数学分析的方

法研究概率问题.

注意在实际问题中, x 并无可能取遍全体实数. 例如上面的例 2.3 中, 乘客的等待时间

Page 25: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 25

只可能在 [0, 5] 之间取值. 但在理论表达中, 仍将等待时间的可能取值视为 (−∞,∞). 此时

X < 0为不可能事件,故 P (X < 0) = 0;而当 x > 5时, X < x为必然事件,故 P (X 6 x) = 1;

当 0 6 x < 5 时, 根据几何概型易知 P (X 6 x) = x/5. 综上, 该例中的 F (x) 可写成如下分

段函数的形式:

F (x) =

0, x < 0;x

5, 0 6 x < 5;

1, x > 5

如此,我们总是将分布函数的定义域固定为 (−∞,∞),然后再根据问题的实际情境写出

其分段形式. 这可在数学形式取得某种统一性, 有利于数学理论的建立和实际分析的进行.

根据分布函数的定义, 很容易得到分布函数的三条性质.

(1)单调不减性: F (x)是定义在实数轴 (−∞,∞)上的单调不减函数,即对任意 x1 < x2,

均有 F (x1) 6 F (x2);

(2) 有界性: 对任意的 x, 均有 0 6 F (x) 6 1, 且有

F (−∞) = limx→−∞

F (x) = 0

F (∞) = limx→∞

F (x) = 1

(3) 右连续性: F (x) 是 x 的右连续函数, 即对任意的 a 有

limx→a+

F (x) = F (a),即F (a + 0) = F (a)

这三个条件构成一个函数能否成为分布函数的充要条件,证明略去. 注意有少数教材定

义 F (x) 为左连续的函数. 这只是定义方式的问题 (如同英国规定靠左行驶而中国规定靠右

行驶一样), 虽在理论论证方面有些许区别, 但基本不影响实际中的使用. 这里依众数意见,

定义 F (x) 为右连续的函数.

知道 F (x) 后, 即可求得随机变量 X 在任何一个区间上取值的概率. 例如, 对任意实数

a < b, 均有以下性质:

P (a < X 6 b) = F (b)− F (a)

P (a 6 X 6 b) = F (b)− F (a− 0)

P (X > b) = 1− F (b− 0)

P (X > b) = 1− F (b)

P (a < X < b) = F (b− 0)− F (a)

P (a 6 X < b) = F (b− 0)− F (a− 0)

就实际中遇到的多数随机变量而言,连续型随机变量的分布函数在多数点处都是连续的. 而

当 F (x) 在 a, b 处连续时, 有

F (a− 0) = F (a), F (b− 0) = F (b)

Page 26: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

26 R 语言统计学基础

其中,

F (a− 0) = limx→a−

F (x)

这样就有 P (a < X < b) = P (a < X 6 b) = P (a 6 X < b) = P (a 6 X 6 b). 如此可极大地方

便计算.

下面是一个具体例子.

例 2.4 某飞镖的靶盘是半径为 10 cm 的圆盘. 设飞镖每次都能扎中靶盘, 且飞镖扎

中靶盘上同心圆的任一点的概率与该同心圆的面积成正比. 设 X 为扎中点与靶心的距离,

求其概率分布.

解 若 x < 0, 则 X 6 x 为不可能事件, 故 F (x) = 0. 飞镖每次都能扎中靶盘, 故当

x > 10 时, X 6 x 为必然事件, 故 F (x) = 1.

重点在于 0 6 x 6 10时的情形. 由条件可知,此时 P (0 6 X 6 x) = P (X 6 x) = F (x) =

kπx2, 其中 k 为某一比例系数. 注意到当 x = 10 时, 有 P (X 6 10) = F (10) = 1. 代入解之,

得 k = 1/100π. 故此时

F (x) =1

100ππx2 =

1100

x2

综上, X 的分布函数如下:

F (x) =

0, x < 0;1

100x2, 0 6 x < 10;

1, x > 10

注意这里等于号的位置, 一般应与定义中 F (x) 为右连续的性质相匹配, 即等号一般应

当放在 a 6 X < b 的位置, 而不是 a < X 6 b 的位置.

2.1.3 离散型随机变量的概率分布列

上面给出了随机变量的分布函数的一般性定义. 下面将分别针对离散型和连续型随机

变量进一步讨论其分布函数.

定义 2.4 (概率分布列) 设 X 是一个离散型随机变量, 它的所有可能取值为 xi(i =

1, 2, · · · , n, · · · ), 则称 X 取这些值的概率

P (X = xi) = p(xi) = pi, i = 1, 2, · · · , n, · · · (2.1)

为 X 的概率质量函数(probability mass function, PMF), 又称概率分布律或概率分布列, 简

称分布律或分布列.

概率质量函数通常以表格形式呈现 (表 2.1),这正是它在国内被称为概率分布列的原因.

表 2.1 离散型随机变量的概率分布列

X x1 x2 · · · xn · · ·P (X) p1 p2 · · · pn · · ·

Page 27: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 27

注意这里为了理论形式的统一,将分布列按取值为可列个的情形列出.但实际情况中遇

到的离散型随机变量取值通常是有限的.

分布列有如下两条基本性质: ① 非负性, 即 pi > 0; ② 规范性, 即∞∑

i=1

pi = 1. 这两点是

很好理解的.

离散型随机变量的分布函数是有界的、单调不减的、右连续的函数. 由离散型随机变量

的分布列很容易写出其分布函数的形式:

F (x) = P (X 6 x) =∑

xi6x

pi, i = 1, 2, · · · , n, · · · (2.2)

一般而言, 离散型随机变量的图像是有限级 (或无限级) 的阶梯式分段跳跃函数. 它在

X 的每一可能取值 xi 处跳跃上升一级, 其跳跃的高度恰为 X 取值 xi 的概率 pi. 对于离散

型随机变量, 若给定它的概率分布即可以唯一确定 F (x), 而由 F (x) 也可唯一地决定 xi 及

对应的概率 P (X = xi) = pi. 因此, 用概率分布或分布函数都能描述离散型随机变量. 实际

中, 在离散场合用概率分布列比用分布函数更加方便.

当然, 理论上也存在分布函数不是阶梯函数的离散型随机变量. 例如, 记区间 (0,1) 中

的全体有理数为 x1, x2, · · · , 且

P (X = xi) =12i

, i = 1, 2, · · ·

容易验证此式满足概率分布列的性质,但其分布函数并非阶梯形. 其分布函数的图像在所有

无理数点处都是连续的, 在有理数的点处都是间断的, 它并不是阶梯形. 深入地解释这一分

布 [以及类似的问题: “在 (0,1) 区间中任取一数, 求此数为有理数的概率”], 通常需要测度论

和实分析的知识, 这远超出一般应用的范畴, 不是关注的重点, 这里不去展开.

例 2.5 袋中有编号为 1,2,3,4, 5 的 5 个小球. 从中任取 3 个球, X 表示取出 3 个球

中的最大号码. 求:

(1)X 的分布列;

(2)X 的分布函数.

解 显然 X 是离散型的随机变量.

(1) 求一个离散型随机变量的分布列, 无非就是求出其所有可能取值及其对应的概率.

X 的所有可能取值为 3, 4, 5. 下面需要分别求出 X 取这些值的概率.

从 5 个球中任选 3 个球, 所有可能取法有 5C3 = 10 种. 若最大号码为 3, 只有一种可

能, 即抽出的小球为 1, 2, 3; 若最大号码为 4, 则有 3 种可能: 1, 2, 4, 1, 3, 4, 2, 3, 4;若最大号码为 5, 则有 6 种可能, 即 1, 2, 5,1, 3, 5,1, 4, 5, 2, 3, 5, 2, 4, 5, 3, 4, 5.故

P (X = 3) =110

= 0.1, P (X = 4) =310

= 0.3, P (X = 5) =610

= 0.6

故 X 的分布列为

X 3 4 5

P (X) 0.1 0.3 0.6

Page 28: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

28 R 语言统计学基础

(2) 由分布函数的定义, 得

F (x) =

0, x < 3;

0.1, 3 6 x < 4;

0.4, 4 6 x < 5;

1, x > 5

另外, 常数 c 可以视为一种特殊的随机变量, 即 P (X = c) = 1. 这一分布通常称为单点

分布, 或退化分布(degenerate distribution). 其分布函数为

F (x) =

1, x > c;

0, x < c

2.1.4 连续型随机变量的概率密度函数

对于连续型随机变量, 因为 X 的取值连续不断地充满区间 (a, b), 故它在此区间内取任

一值 xi 的概率 P (X = xi) 只能为 0. 若不然, 此区间上的所有可能值对应的概率之和就会

超过 1, 这与概率公理相悖. 因此, 对于连续型随机变量 X, 不再去问 X 取某一特定值的概

率, 转而考虑 X 的取值在某一区间内的概率. 这样一来, 刻画连续型随机变量的概率分布,

就不能像离散型随机变量那样使用分布列来进行, 而必须通过概率密度的概念来体现.

定义 2.5 (概率密度函数) 设 F (x) 是随机变量 X 的分布函数, 若存在定义在实数轴

上的非负可积函数 f(x), 使对任意的 x 有

F (x) =∫x

−∞f(t) dt (2.3)

则称 X 为连续型随机变量, F (x)为连续性分布,并且称 f(x)为 X 的概率密度函数(probability

density function, PDF), 简称密度函数.

当然这里的 f(x) 必须具有两条基本性质: (1) 非负性, 即 f(x) > 0; (2) 规范性, 即∫∞−∞

f(x) dx = 1. 凡满足此两条性质的函数 f(x), 均可视为密度函数.

通常情况下 [在 f(x) 在 x 处连续的情况下], 连续型随机变量的概率密度函数 f(t) 是

其分布函数 F (x) 的导数. 这一点可以做如下解释. 取定一个点 x, 则按分布函数的定义,

事件 x < X 6 x + h 发生的概率 P (x < X 6 x + h) = F (x + h) − F (x). 所以, 比值

[F (x + h)− F (x)] /h 可以解释为在 x的附近、长度为 h的区间 (x, x + h)内,每个单位长度

所占有的概率. 令 h → 0, 则有

limh→0

F (x + h)− F (x)h

= F ′(x) = f(x)

这一极限值反映的就是概率在 x处的密集程度.用物理学上的例子来讲,不妨想象有一

根质量为 1的极细而无穷长的金属杆,概率密度就相当于是这一杆上各点的质量密度.概率

密度本身并不是概率,故可大于 1. 用概率密度乘以小区间的长度 [f(x)h = f(x) dx],即可得

到近似的概率.

Page 29: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 29

这里还要注意, 连续型随机变量的概率密度函数并不一定是连续函数, 而只是一个非负

可积的函数. 从微积分的知识可以知道, 连续必定可积, 但可积未必连续. 我们经常会遇到

用不连续的分段函数来体现的概率密度函数. 当然,连续型随机变量的分布函数一定是单调

不减的连续函数, 它可能在有限个或可列个点上不可导, 除此之外皆有 F ′(x) = f(x).

有了连续型随机变量的密度函数, 诸如 P (a < X < b) 之类事件的概率就可以转换

为对应区间上的积分来求, 这可极大地方便问题的分析. 随机变量 X 落入区间 (a, b] 的

概率, 等于以 x = a, x = b, y = f(x) 及 x 轴所转成的图形面积. 密度函数的规范性, 即

F (x) =∫∞−∞

f(t) dt = 1 保证了所求的概率不会违反概率公理中的规范性要求. 同时也可看

到, P (a < X < b) = P (a 6 X < b) = P (a < X 6 b) = P (a 6 X 6 b). 这是因为密度函数在

某一点处的积分值为 0. 这也可以看出, 改变若干不连续点上的密度函数值, 并不会改变相

应区间上的概率. 这是概率论中的一个奇妙之处.

例 2.6 向实数轴上的区间 (0, a)内随机抛点, X 表示该点坐标.设该点落在区间 (0, a)

内的任一小区间的可能性,与该小区间的长度成正比,而与小区间的位置无关.求 X 的分布

函数与密度函数.

解 设 X 的分布函数和密度函数分别为 F (X) 和 f(x). 显然, 求得 F (x) 后对 x 求导

即得 f(x).

当 x < 0 时, F (x) = P (X 6 x) = 0; 当 x > a 时, F (x) = P (X 6 x) = 1.

当 0 6 x < a 时, 按题意有 F (x) = P (X 6 x) = P (0 6 X 6 x) = kx, 其中 k 为比例系

数. 注意到 x = a 时, F (x) = 1, 故解得 k = 1/a. 因此, 此时 F (x) = x/a.

综上, X 的分布函数为

F (x) =

0, x < 0;x

a, 0 6 x < a;

1, x > a

对 F (x)分段求导, 可得其密度函数. 当 x < 0或 x > a时, 显然 f(x) = 0; 当 0 < x < a

时, f(x) = 1/a. 当 x = 0 和 x = a 时, 从微积分的观点看 F (x) 并不存在导数, 因为左导数

与右导数均存在但不相等. 但在概率论里,可认为在这一点的概率密度处取左导数和右导数

的值都是有道理的 (甚至取别的非负值也可以),并不影响问题的实质. 这主要是因为前面提

到的 “改变若干不连续点上的密度函数值, 并不会改变相应区间上的概率”. 实际上, 同一分

布函数的密度函数可以不尽相同, 但它们必 “几乎处处相等”, 即它们不相等处的点组成的

集合的概率为零. 这里不详细展开, 有兴趣者可自行参阅相关专业教程. 通常情况下, 遇到

这种情况时都取其值为 0, 以便分析与记录.

综上, X 的密度函数为

f(x) =

1a, 0 6 x < a;

0, 其他

此分布实为区间 (0, a) 上的均匀分布(uniform distribution), 是一种典型的连续型分布,

这里记为 X ∼ U(0, a).

Page 30: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

30 R 语言统计学基础

例 2.7 设

F (x) =

0, x < 0;x

2, 0 6 x < 1;

1, x > 1

问: (1)F (x) 可否作为分布函数?(2) 如果 F (x) 可作为分布函数, 则其对应的随机变量 X 是

否为连续型随机变量?

解 这里只说明基本思路.

(1) 分布函数具有三个基本性质: 单调性、有界性和右连续性. 满足此三点即可作为分

布函数. 很容易验证 F (x) 满足此三点要求, 故 F (x) 可否作为分布函数.

(2) 要判定 X 是否为连续型随机变量, 根据定义需要看是否存在非负可积的函数 f(x)

使得 F (x) =∫x

−∞f(t) dt, 且

∫∞−∞

f(x) dx = 1. 凡是满足此两条性质的函数 f(x), 均可视为

密度函数. 前面也提到, 连续型随机变量的分布函数一定是单调不减的连续函数, 它可能在

有限个或可列个点上不可导, 除此之外皆有 F ′(x) = f(x).

先尝试在可求导的区间上对 F (x) 对 x 求导, 有

F ′(x) = f(x) =

12, 0 < x < 1;

0, x < 0或x > 1

从 f(x) 的性质看, 不论怎样定义点 x = 1 的值, 均无法使得∫∞−∞

f(x) dx = 1. 实际上,

不论 f(1) 是否存在, 存在的话又如何定义, 总有∫∞−∞

f(x) dx = 1/2 6= 1. 因此, F (x) 对应的

随机变量 X 并不是一个连续型的随机变量,它谈不上有什么概率密度函数. 显然,它也不是

一个离散型的随机变量. 实际上, 它正是前面提到的 “既非连续, 又非离散” 的奇异型或混

合型分布. 这是不做深入分析, 仅举一例作拓展眼界之用.

2.2 随机变量的期望与方差

2.2.1 期望的定义

对任意的随机变量, 如果能知道其分布函数, 当然就可以知道其取值的所有规律. 有时

为了简化分布的信息, 通常会用一些特征数来概括这一随机变量. 最常用的就是数学期望

(简称期望, 也称均值) 与方差.

“期望”(expectation, 或 expected value) 是用来表示随机变量取值的稳定程度或集中程

度的量, 其作用类似于一般统计数据中的均值(mean). 但期望并不是普通的均值, 而是一种

“加权” 后的均值, 其权重即各个值出现的概率 (在离散情形下). 这里的思想是直观的.

定义 2.6 (离散型随机变量的期望) 设离散型随机变量 X 的分布律为 P (X = xi) ,

i = 1, 2, · · · , n, · · · , 若级数∞∑

i=1

xipi 绝对收敛, 则称级数∞∑

i=1

xipi 的和为随机变量 X 的数学

Page 31: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 31

期望, 简称期望, 记为 E(X), 即

E(X) =∞∑

i=1

xipi (2.4)

期望也可用均值的希腊字母 µ 来表示.

在 i 为有限值的情况下 (i = 1, 2, 3, · · · , n), 离散型随机变量的期望即为

E(X) =n∑

i=1

xipi (2.5)

在上面的定义中, 要求级数绝对收敛的原因在于使期望唯一. 从级数理论的知识知道,

如果一个无穷级数的项有正有负,则调整求和顺序后的级数值可能会发生变动,但绝对收敛

的级数则可保证不论怎样变动其中的求和顺序,其级数值一定保持不变.随机变量的取值 xi

可能取正值或负值, 为使期望唯一, 故要令这一级数绝对收敛. 而有限项的级数, 其和显然

一定是存在的, 故有限的离散型随机变量的期望也一定是存在的.

连续型随机变量的期望定义类似于离散型随机变量, 但需改造为积分形式.

定义 2.7 (连续型随机变量的期望) 设连续型随机变量 X 的密度函数为 f(x), 若积分∫∞−∞

xf(x) dx 绝对收敛, 则称

E(X) =∫∞−∞

xf(x) dx (2.6)

为其期望. 若该积分不绝对收敛, 则称期望不存在.

要求积分绝对收敛的原因同上. 这里对∫∞−∞

xf(x) dx再做进一步的解释. 这其实与级数∞∑

i=1

xipi 没有本质区别, 只是在连续型随机变量中, f(x) 并不是概率值而是密度值, f(x)∆x

才是小区间上的近似概率, 再用 X 的取值 x 乘以对应的 f(x)∆x, 并在 (−∞,∞) 上求其和

式的极限, 自然就得到了以上述反常积分 (improper integral, 旧译广义积分) 的形式出现的

“加权” 均值.

数学期望的理论性质是深刻的. 它是从认知或理论角度 “消除”随机变量的随机性的一

种数学手段: 虽然随机变量的取值千变万化, 但 “万变不离其宗”, 只要满足一定条件, 一定

可以找出其 “平均的变化趋势”. 这在风险衡量、金融投资和行为决策等领域具有重要的应

用.

一个随机变量的数学期望是一个常数,它表示随机变量取值的平均. 但它仍与一般数据

中的算术平均值不同. 随机变量的数学期望, 表明的是在可重复观测的情况下, 随机变量取

值的稳定性. 比如, 如果说某只日光灯的期望寿命是 3 800 小时, 其意思不是指这只日光灯

的寿命就是 3 800 小时, 而是如果对若干只日光灯进行检查或使用, 平均而言, 它们的寿命

是 3 800小时. 但每只日光灯的寿命本身是无法预测的,其取值是随机的; 只是总体而言,所

有同类型日光灯的寿命都围绕 3 800 小时左右波动. 这正如我们说某一地区新生儿的期望

寿命是 70 岁, 并不意味着每个新生儿都一定能不多不少地活到 70 岁一样.

Page 32: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

32 R 语言统计学基础

2.2.2 方差的定义

期望相同的两个随机变量, 其波动程度并不一定相同.如现实中两个班级在某门科目上

的平均成绩相同,但两个班级内部学生的学习水平分化程度并不一定相同.为了衡量随机变

量的取值波动性, 需要引入新的特征数, 这就是方差.

如何思考随机变量的波动程度?通常的思维方式中, 会首先选定一个 “参照基点”, 就像

物理上思考运动过程需要有一个参考系一样, 要将物体的运动具体地思考成 “A 相对于 B”

的运动, 这样才能进行深入的分析. 分析随机变量波动性的 “基点”, 理论上可以有很多种,

这里不妨以期望为基点, 考虑随机变量的不同取值偏离期望的程度,并以此作为其波动值的

一个衡量标准. 这正是随机变量方差的基本思想.

直观地想,可以直接考虑 X−E(X) = X−µ,并将这些差值一一累加,但这并不可行. 因

为这一差值有正有负, 最后会相互抵消 [实际上可以证明 E(X − µ) = 0, 这一点在学完期望

的性质后可一眼看出].改进的方法, 似乎可以取这一差值的绝对值,即 |X −µ|, 再取其期望.

这一想法其实非常漂亮, 但是数学上处理起来比较麻烦 (尤其是对 20 世纪之前的数学而言,

现在随着数学理论的发展和计算机技术的兴起, 使用这种方式作为随机变量波动性衡量尺

度的方法已经逐渐兴起, 也具有一些非常优良的性质), 故可以考虑另外一种形式: (X −µ)2.

这样可以消去负号, 且当 (X − µ)2 达到最大值时, |X − µ| 也达到最大值; (X − µ)2 达到最

小值 (即 0) 时, |X − µ| 也达到最小值. 这样, 以 (X − µ)2 为基础构造一个随机变量波动的

指标, 应当是非常合理的. 由于 X 是一个随机变量, 而 µ 是一个常数, 故 (X − µ)2 仍是一

个随机变量. 现取 (X −µ)2 的期望,即可作为随机变量波动性的良好刻画. 这就是随机变量

方差定义的来源, 之所以翻译为方差, 正是取其 “差的平方” 之义. 下面给出具体定义.

定义 2.8 (方差) 若随机变量 X2 的期望 E(X2) 存在, 则称其偏差平方 [X − E(X)]2

的期望为随机变量 X 及其对应分布的方差(variance), 记为

Var(X) = E[X − E(X)]2 (2.7)

并称方差的算术平方根为标准差(standard deviation, SD). 方差也常用希腊字母 σ2(读作

“sigma 方”) 表示, 标准差常用 σ 表示 (σ 其实是作为求和号的希腊字母 Σ 的小写形式).

也有许多教材用 D(X) 表示方差, 其中的 D 是英文 Deviation 的缩写. X 的方差和标

准差也记为 σ2X 和 σX .

根据这一定义, 可各自写出离散型随机变量与连续型随机变量的方差的计算公式.

定义 2.9 (离散型随机变量的方差) 离散型随机变量 X 的方差为

Var(x) =

∞∑

i=1

[x− E(X)]2pi, X取值为可列个;

n∑

i=1

[x− E(X)]2pi, X取值为有限个(2.8)

从式 (2.7) 变到式 (2.8), 只是利用了离散型随机变量 (在这里是 [X − E(X)]2) 的期望

定义.

Page 33: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 33

定义 2.10 (连续型随机变量的方差) 连续型随机变量 X 的方差为:

Var(X) =∫∞−∞

[x− E(X)]2f(x) dx (2.9)

从式 (2.8) 到式 (2.9), 与前面离散型随机变量的期望到连续型随机变量的期望的公式

转变是一个道理, 这里不再重复.

方差或标准差越大, 随机变量的波动性越强, 表现为其取值偏离期望的可能性越大; 方

差或标准差越小, 随机变量的波动性越小, 表现为其取值更多地集中在期望附近. 实际使用

中通常用标准差作为随机变量取值波动性的衡量. 其优点主要在于标准差的量纲与原始随

机变量能保持一致, 而方差由于存在平方化的过程, 其量纲会脱离实际的情景.

2.2.3 期望的性质

对初学者来说, 与期望和方差的定义相比,它们的基础性质及其应用可能是更重要的内

容. 原因是入门阶段的常有分布的期望与方差均有已有定论, 简单记住即可, 无须再从定义

角度证明. 如何利用期望与方差的性质, 并结合常见分布来处理实际中的各种问题, 才是真

正的重点. 以下均假定期望与方差存在.

期望的基本性质如下:

(1) 若 c 为常数 (下同), 则 E(c) = c, 即常数的期望为它本身;

(2) E(cX) = cE(X);

(3) E(aX + b) = aE(X) + b, 其中 a, b 为常数 (下同);

(4) E(X ± Y ) = E(X)± E(Y );

(5) 对任意两个函数 g(x), h(x), 有

E[g(X)± h(X)] = E[g(X)]± E[h(X)];

(6) 若两个随机变量 X 与 Y 之间相互独立, 则有 E(XY ) = E(X)E(Y ); 不独立时不能

运用此式.

性质 (1)、性质 (2)、性质 (3) 都是很直观的, 性质 (4) 和性质 (5) 已经涉及两个随机变

量的情形, 这里先简单列出, 以便后面知识的讲述. 要统一证明这些性质并不简单. 证明过

程一般要通过定理 2.1, 但要证明这一定理却超出我们需要掌握的知识. 这里不加证明地列

出, 以便参考. 性质 (6) 实际已超出这里讨论的内容, 涉及两个随机变量之间的情形. 两个

随机变量之间相互独立的定义,这里并未探讨, 先可简单地理解为两个随机变量的取值之间

互不影响, 则称两者独立. 后面再进行严格的定义.

定理 2.1 (随机变量函数的期望) 若随机变量 X 的分布可用分布律 P (Xi) = pi 或密

度函数 f(x) 表示, 则对 X 的任意函数 Y = g(X) 有

E(Y ) = E[g(X)] =∞∑

i=1

g(xi)pi, 当X为离散型随机变量;

E(Y ) = E[g(X)] =∫∞−∞

g(x)f(x) dx, 当X为连续型随机变量

(2.10)

Page 34: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

34 R 语言统计学基础

感兴趣的同学可以在这一定理的基础上去证明上述性质. 这里再举一些离散情形下的

简单例子, 来加深理解.

例 2.8 设 X 的概率分布列如下: 求 E(X2).

X 0 1

P (X) 1− p p

解 若不知定理 2.1, 通常需要去求出 X2 的概率分布列, 然后再按期望的定义去求其

期望. 设随机变量 Y = f(X) = X2, 即把 Y 看成是 X 的一个函数. 根据函数的定义, 每给

定来自变量 X 的一个元素, 总有唯一一个 Y 中的元素与之对应; 或者说, 随机变量 X 的每

一个值, 均唯一地对应 Y 的一个值. 这种转换过程是确定性的, 不存在随机性. 也就是说, Y

的取值的随机性,不来自 f(X) = X2 这一对应法则本身,而来自 X 取值本身固有的随机性.

故 X2 的分布列可列出如下:

X2 0 1

P (X) 1− p p

如此即可求得 E(X2) = 1× p + 0× (1− p) = p.

若直接使用定理 2.1, 则可直接处理如下:

E(X2) = 02 × (1− p) + 12 × p = p

这两种做法显然是相等的.

例 2.9 设 X 的概率分布列如下: 求 E(X2).

X −1 0 1

P (X) 0.2 0.5 0.3

X 0 1

P (X) 0.5 0.5

解 同样, 先列出 X2 的分布列: 注意这里的 P (X2 = 1) = 0.5, 实际上是 P (X =

1) + P (X = −1) = 0.2 + 0.3 的结果, 即进行函数变换后, 相等的值的概率应当加以合并. 故

E(X2) = 0.5× 0 + 0.5× 1 = 0.5.

若直接使用定理 2.1, 则可直接处理如下:

E(X2) = (−1)2 × 0.2 + 02 × 0.5 + 12 × 0.3 = 0.5

这两种做法也显然是相等的.

这两例内容简单, 内涵却很丰富. 它们说明了利用定理 2.1, 求 g(X) 的期望不一定要通

过 g(X) 的分布. 这对于许多复杂问题的计算是很方便的. 当然, 对于像上述两例中的简单

问题, 直接列出分布列的做法也不失为一种可取的办法.

例 2.10 有 n 封内容写给不同收信人的信, 随机放入 n 个写有不同收信人的信件中.

X 是内容与信封名字正好配对的个数, 求其期望.

Page 35: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 35

解 设随机变量 Xi(i = 1, 2, · · · , n) 为

Xi =

1, 第 i 封信配对;

0, 第 i 封信没有配对

则显然有 X =n∑

i=1

Xi. 很容易求得

E(Xi) = 1× P (Xi = 1) + 0× P (Xi = 0) =1n

故 E(X) =n∑

i=1

E(Xi) = n× 1n

= 1.

此例中将一个复杂事件拆分为若干个独立的简单事件, 再利用期望的性质来求复杂事

件期望的做法, 在概率论中很有典型性.

2.2.4 方差的性质

方差的基本性质如下.

(1) Var(c) = 0, 即常数的方差为 0;

(2) Var(X + c) = Var(X);

(3) Var(aX + b) = a2Var(X);

(4) Var(X) = E(X2)− [E(X)]2;

(5) 若 X 与 Y 之间相互独立, 则 Var(X ± Y ) = Var(X) + Var(Y ).

性质 (1) 是显然的. 性质 (2) 为性质 (3) 的特殊情形. 下面对性质 (3) 和性质 (4) 做简

单证明.

证 先证性质 (3). 利用方差的定义和期望的性质, 有

Var(aX + b) = E[(aX + b)− E(aX + b)]2

= E[aX + b− aE(X)− b]2

= a2E[X − E(X)]2

= a2Var(X)

再证性质 (4). 同样利用方差的定义和期望的性质, 有

Var(X) = E[X − E(X)]2

= EX2 − 2X · E(X) + [E(X)]2= E(X2)− 2E[X · E(X)] + E[E(X)]2

= E(X2)− 2E(X) · E(X) + [E(X)]2

= E(X2)− [E(X)]2

性质 (4) 经常用来做一些证明和实际运算.

Page 36: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

36 R 语言统计学基础

注意性质 (5) 中, 对相互独立的 X 和 Y , 不论 X + Y 还是 X − Y , 其方差只会变大, 不

会变小, 原因在于利用性质 (3) 可知 Var(−Y ) = Var(Y ). 但这一公式只适用于 X 和 Y 相

互独立的情形. 这里先不证这一性质, 在学完随机变量独立性的内容后, 可很快证得这一点.

例 2.11 某路段施工的工程队完成其所承包的工程的时间 X(单位: 月) 为一随机变

量, 它满足如下分布. 求:

(1) 求该施工队完成其工程的期望月数与标准差;

(2) 若该施工队的利润为 Y = 60(13−X), 单位为万元, 求其期望利润与标准差.

X 10 11 12 13

P (X) 0.2 0.3 0.4 0.1

解 (1)利用期望与标准差的定义,求得 E(X)=11.4(月),√

Var(X)=√

0.84=0.917(月).

实际工作中, 此类运算完全可利用计算器或统计软件进行, 不必手算.

(2) E(Y ) = E[60(13−X)] = 60E(13−X) = 780− 60E(X) = 96(万元).

Var(Y ) = Var[60(13 − X)] = 602Var(13 − X) = 3 600Var(X) = 3 027. 故标准差为√3 027 = 55(万元).

例 2.12 设连续型随机变量 X 的分布函数为

F (x) =

ex

2, x < 0;

1/2, 0 6 x < 1;

1− 12e−

12 (x−1), x > 1

求其期望和方差.

解 易得其密度函数为

f(x) =

ex

2, x < 0;

0, 0 6 x < 1;14e−

12 (x−1), x > 1

故利用连续型随机变量的期望定义, 有

E(X) =∫∞−∞

xf(x) dx =∫0

−∞x

ex

2dx +

∫∞1

x

[14e−

12 (x−1)

]dx

= −12

+32

= 1

要求 Var(X), 先求 E(X2).

E(X2) =∫∞−∞

x2f(x) dx =∫0

−∞x2 e2

2dx +

∫∞1

x2

[14e−

12 (x−1)

]dx

= 1 + 6.5 = 7.5

故 Var(X) = E(X2)− [E(X)]2 = 7.5− 1 = 6.5.

Page 37: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 37

例 2.13 一辆机场巴士送 20 名旅客从机场开出, 中途经过 10 个车站. 如果车站没

人下车就不停车.假设旅客在每个车站下车是等可能的, 且各旅客之间在哪一站下车相互独

立. 用 X 表示机场巴士的停车次数, 求其期望.

解 设随机变量 Xi(i = 1, 2, · · · , 10) 为

Xi =

1, 第 i 站有人下车;

0, 第 i 站没人下车

则显然有 X =n∑

i=1

Xi. 由题意知每个旅客在第 i 站下车的概率均为 1/10, 在第 i 站不下车

的概率均为 9/10. 如果车到第 i 站, 没人下车就不停车, 这要求在该站所有人都不下车, 概

率为 (9/10)20, 那么在该站有人下车即需要停车的概率为 1− (9/10)20. 如此可求得 Xi 的概

率分布列为

Xi 0 1

P (Xi)

(9

10

)20

1−(

9

10

)20

故 E(Xi) = 0×(

910

)20

+ 1×[1−

(910

)20]

= 1−(

910

)20

. 由此得到

E(X) =n∑

i=1

E(Xi) = 10×[1−

(910

)20]

= 8.78

最后的计算请使用软件或计算器进行.

2.3 常用离散型随机变量

离散型随机变量种类繁多, 但就实际应用而言, 最重要的有二项分布、泊松分布、超几

何分布、几何分布与负二项分布等. 它们既是概率论学习中的重点, 也是将来实际统计应用

中常见的概率模型, 需要重点关注.

2.3.1 二项分布

先看这样一个实际问题: 已知某流水线上产品的次品率为 p, 现从中任取 n 只做检查,

问其中恰有 k 只是次品的概率为多大? 假定每只产品是否为次品是独立的.

此题并不难求. 首先考虑 n只有恰有 k 只次品的可能情况, 根据组合的知识, 应当知道

(n

k

)种, 每一种情况 (k 只次品且有 n − k 只正品) 的概率为 pk(1 − p)n−k. 故所求概率

(n

k

)pk(1− p)n−k. 这正是二项分布的典型情形.

具体而言, 二项分布(binomial distribution) 具有如下特征:

(1) 试验总共进行 n 次;

Page 38: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

38 R 语言统计学基础

(2) 每次试验之间相互独立;

(3) 每次试验只有两种可能结果, “成功” 或 “失败”;

(4) 每次试验成功的概率相同.

所谓 “成功”(success), 不过是指研究者感兴趣的事件出现而已, 对应的 “失败”(failure)

即感兴趣的事件不出现. 实际应用中, 通常根据问题的情境, 对照此 4 条性质, 来决定是否

使用二项分布进行模拟分析.

下面给出二项分布的正式定义.

定义 2.11 (二项分布) 若随机变量 X 的概率分布律为

P (X = k) =(

n

k

)pk(1− p)n−k, k = 0, 1, 2, · · · , n (2.11)

则称 X 服从二项分布,常记作 X ∼ B(n, p). 式中: n为总试验次数; p为每次试验的 “成功”

概率; k 为 n 次试验中的 “成功” 次数.

二项分布可由 n, p 这两个参数 (parameter) 唯一决定. 只要知道了 n 和 p 的信息, 就

可以完全掌握该随机变量的取值特征. 注意这里的 X 共有 0, 1, 2, · · · , n 这 n + 1 个取值.

图 2.1 给出了二项分布概率质量函数的分布形状, 可以直观地看到, 当 p = 0.5 时, 图形是对

称的; 当 p < 0.5 时, 有少数的值偏向右侧 (称为右偏); 当 p > 0.5 时, 有少数的值偏向左侧

(称为左偏).

图 2.1 二项分布的概率质量分布

定理 2.2 二项分布的期望和方差分别为

E(X) = np Var(X) = np(1− p) (2.12)

Page 39: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 39

这里使用期望和方差的性质来作一证明. 为此,先说明二点分布,或伯努利分布(Bernoulli

distribution) 这一概念. 二点分布实际上是 n = 1 时的二项分布, 其分布列如下:

X 0 1

P (X) 1− p p

其中, X = 0 表示感兴趣的事件不发生, X = 1 表示感兴趣的事件发生. 根据离散型随

机变量期望和方差的定义,很容易算出二点分布的期望为 p, 方差为 p(1− p). 符合上述特征

的试验称为伯努利试验(Bernoulli trial). 显然, 二项试验就是 n 次独立的伯努利试验, 也称

为 n重伯努利试验.

现在, 设 Xi(i = 1, 2, · · · , n) 是一系列独立同分布的二点分布随机变量, 记

Xi =

1, 第 i 次试验成功;

0, 第 i 次试验失败

并设第 i 次试验成功的概率为 p.

记 X = X1 + X2 + · · ·+ Xn. 则 X 恰好就是服从 B(n, p) 的随机变量. 利用期望和方差

的性质, 可知:

E(X) = E(X1 + X2 + · · ·+ Xn) = E(X1) + E(X2) + · · ·+ E(Xn) = np

Var(X) = Var(X1 + X2 + · · ·+ Xn) = Var(X1) + Var(X2) + · · ·+ Var(Xn) = np(1− p)

如果直接从定义去证明这两点,其实是不容易的,需要对组合公式的性质运用非常熟练.

而掌握期望和方差的性质后, 理解上面的过程就应当没有什么难度.

例 2.14 某酒店只允许有预订的顾客就餐. 根据过去的记录发现: 预订餐厅位置而不

来就餐的顾客比例为 20%. 该餐厅共有 100 个位置, 但预订了 120 位顾客, 求到时顾客来到

餐厅而没有位置的概率.

解 设 X= 预订的 120 人中到时来到餐厅的顾客人数, 则 X ∼ B(120, 0.8).

P (X > 100) = 1− P (X 6 100) = 0.151 713 5.

计算使用软件进行. R 的命令为 1-pbinom(100, 120, 0.8), 其中 100 表示成功次数,

120 表示试验总数, 0.8 表示每次成功的概率. 其余参数的情形可类推.

关于 R语言的概率计算相关功能,可参考本书电子版附录中《R语言中的常用数学函数

与概率函数》一节的相关内容, 或进一步查阅相关参考资料.

2.3.2 泊松分布

定义 2.12 (泊松分布) 若随机变量 X 的分布律由式 (2.13) 给出

P (X = k) = e−λ λk

k!, k = 0, 1, 2, · · · (2.13)

其中参数 λ > 0,则称X服从参数为 λ的泊松分布(poisson distribution),这里记为X ∼ P (λ).

也有些书记为 X ∼ π(λ)、X ∼ Poisson(λ) 等形式.

Page 40: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

40 R 语言统计学基础

式 (2.13) 满足概率分布的定义, 这是因为有

∞∑

k=0

e−λ λk

k!= e−λ

∞∑

k=0

λk

k!= e−λeλ = 1 (2.14)

其中第二个等号之所以成立, 是利用了常见的泰勒展开式

ex = 1 + x +x2

2!+ · · ·+ xk

k!+ · · · =

∞∑

k=0

xk

k!(2.15)

取 x = λ 即可证得上面的结果. 以下还将利用式 (2.15) 证明其他性质.

泊松分布只有 1 个参数: λ. 某些时候这一参数也写为 µ, 这是为了突出泊松分布的重

要性质: 其期望 (µ) 与方差 (σ2) 都是 λ. 下面将证明这一结论.

若 X 服从参数为 λ 的泊松分布, 则根据离散型随机变量的期望与方差定义, 有

E(X) =∞∑

k=0

ke−λ λk

k!

=∞∑

k=1

ke−λ λk

k!(因 k = 0 这一项为 0, 可省略 1 项)

= λ∞∑

k=1

e−λ λk−1

(k − 1)!

= λ

∞∑m=0

e−λ λm

m![令 m = k − 1, 并利用式 (2.14) 的结果]

= λ (2.16)

类似地, 有

E(X2) =∞∑

k=0

k2e−λ λk

k!

=∞∑

k=1

kλe−λ λk−1

(k − 1)!

m=k−1======= λ

∞∑m=0

(m + 1)e−λ λm

m!

= λ∞∑

k=0

me−λ λm

m!+ λ

∞∑

k=0

e−λ λm

m!

= λE(X) + λ

= λ2 + λ (2.17)

如此可由方差的计算公式得到

Var(X) = E(X2)− [E(X)]2 = λ2 + λ− λ2 = λ (2.18)

Page 41: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 41

λ 也常称为泊松分布的速率(rate) 或强度(intensity) , 它表示单位时间 (单位面积) 内随

机事件的平均发生率或平均发生次数. 可以证明若某事件在不同时间区间内独立发生、且

单位时间内其发生概率不变,则一段时间内该事件发生的总数将会服从泊松分布.这正是泊

松分布得以广泛应用的基本背景. 证明稍后给出.

泊松分布是以 18—19 世纪的法国数学家 Simeon-Denis Poisson (1781–1840) 的名字命

名, 但更早之前已由数学史上著名的伯努利家族中的某位成员描述过, 它本身也与 n 重伯

努利分布即二项分布关系密切,通常作为二项分布的极限分布出现. 泊松分布适用于近似描

述单位时间或空间内随机事件发生的次数, 如某一服务设施在一定时间内到达的人数, 机器

出现的故障数, 自然灾害发生的次数, 一块产品上的缺陷数, 某城市一天内的交通事故次数,

等等.

泊松分布的形状取决于 λ 的大小. λ 的值越小, 右偏越明显; 随着 λ 值变大, 随机变量

取值为 0 的可能性变小, 分布迅速趋于对称; 随机变量取值在均值附近的概率较大, 其他地

方的取值概率较小. 当 λ = 20 时, 泊松分布已近似于后面将学习到的正态分布. 图 2.2 展示

了这种变化过程.

图 2.2 泊松分布的概率质量函数

若某个随机变量服从二项分布 B(n, p), 则当 n很大、p很小时, 使用泊松分布来代替二

项分布可以取得较好的近似效果,且可大大简化运算的复杂性 (这对处于前计算机时代的研

究者而言意义重大, 但对于拥有计算机的当代研究者而言, 即便是使用二项分布求精确值,

通常也不是什么难事). 这一性质称为泊松定理.

泊松分布具有可加性, 即若 X ∼ P (λ1), Y ∼ P (λ2), 则有 Z = X + Y ∼ P (λ1 + λ2). 但

应注意 X − Y 不服从泊松分布. 具体证明这里略去. 这里顺便指出, 可加性意指“同一类分

Page 42: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

42 R 语言统计学基础

布的独立随机变量和的分布仍属于此类分布”, 二项分布、正态分布、指数分布、卡方分布

等都具有可加性.

可证明若 X ∼ B(n, p), 则当 n → ∞, p → 0 且 np 保持为固定常数 λ 时, 二项分布

的极限分布为泊松分布. 证明请见本书电子版附录. 在实际应用中, 所以泊松分布常被用

来研究稀有事件的频数 (即 n 很大、p 很小), 尤其当 λ = np < 5 时, 逼近效果更佳. 然

而, 随着计算机软件的发展, 泊松分布作为二项分布之近似分布的功能已经逐渐减弱. 泊

松分布之所以重要, 不如说是其理论上的一些性质, 以及作为随机过程(Stochastic Process)

的泊松过程在物理、工程、通信等领域的实际应用. 随机过程的内容已经超出入门统计学

的内容, 大家可在学完本课程后再行深入研究. 另外, 就社会科学领域的研究而言, 泊松分

布的重要性在于对于 “计数数据”(count data), 即取值为可数个的变量 (如生育次数、自

杀人数等), 在满足一定前提时通常会使用泊松回归(Poisson Regression) 来做模拟和近似

预测.

2.3.3 几何分布与负二项分布

仍看一个具体问题: 设某枪手每一枪命中目标的概率均为 p(0 < p < 1). 他不断地开枪,

直到击中目标为止. 假定每次开枪之间相互独立. 令 X= 第一次命中目标时的已开枪次数,

求 P (X = k), k = 1, 2, · · · .此题也不难求. X = k 表示第 k 次开枪时首次命中目标, 则前 k − 1 次均未命中目标.

故 P (X = k) = (1− p)k−1p. 这种情形正是几何分布(geometric distribution) 的典型情形. 容

易验证 P (X = k) = (1− p)k−1p 满足概率分布率的要求.

定义 2.13 (几何分布) 若随机变量 X 的概率分布律为

P (X = k) = (1− p)k−1p, k = 1, 2, · · · , n, · · · (2.19)

则称 X 服从几何分布, 记作 X ∼ G(p). 其中, p 表为每次试验的 “成功” 概率; k 出现第一

次 “成功” 时的总试验次数.

几何分布只需要由一个参数 (即 p) 来描述. 几何分布是一个右偏分布 (图 2.3).

几何分布在具体情境上与二项分布有诸多类似之处. 它有如下特征:

(1) 每次试验之间相互独立;

(2) 每次试验只有两种可能结果, “成功” 或 “失败”;

(3) 每次试验成功的概率相同;

(4) 试验进行到第一次成功时即停止.

不同的是,二项分布的随机变量是 n次试验中的成功次数,而几何分布的随机变量是为

了达到第一次成功而需进行的总试验次数.

可以求得几何分布的期望和方差分别为

E(X) =1p

Var(X) =1− p

p2(2.20)

Page 43: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 43

图 2.3 几何分布的概率质量函数

这里只简单地说明期望的推导. 令 q = 1− p, 按期望的定义, 应有

E(X) =∞∑

i=1

k(1− p)k−1p = p∞∑

i=1

kqk−1 = p∞∑

i=1

dqk

dq

= pddq

( ∞∑

i=1

qk

)= p

ddq

(q

1− q

)=

p

(1− q)2=

1p

注意这里利用了无穷级数∞∑

n=0

xn =1

1− x, |x| < 1 的性质. 用类似的方法可将其方差求

出, 这里不再展开.

几何分布有一个重要特征: 无记忆性. 这是指以下特征:

定理 2.3 (几何分布的无记忆性) 设 X ∼ G(p), 则对任意正整数 m 和 n, 都有

P (X > m + n|X > m) = P (X > n) (2.21)

先解释上面定理的意思. 在若干次伯努利试验序列中, 首次成功 (记为 A) 出现时的试

验次数 (X) 服从几何分布. 而事件 X > m 表示前 m 次试验中 A 没有出现. 此时若再进行

n 次试验, 而 A 仍然没有出现, 这就是事件 X > m + n. 上述定理表明, 在前 m 次试验中 A

没有出现的情况下, 在接下去的 n 次试验中 A 仍然没有出现的概率, 与重新开始进行 n 次

试验而未出现 A的概率相同,而与前面的 m次试验无关,似乎 “忘了”前 m次的结果一样.

下面来证明定理 2.3.

Page 44: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

44 R 语言统计学基础

证 根据几何分布的概率分布律有

P (X > n) =∞∑

k=n+1

(1− p)k−1p = p(1− p)n

1− (1− p)= (1− p)n

所以

P (X > m + n|X > m) =P (X > m + m ∩ X > m)

P (X > m)

=P (X > m + n)

P (X > m)=

(1− p)m+n

(1− p)m

= (1− p)n = P (X > n).

如果试验出现第一次成功后仍不停止而继续进行, 令随机变量 X 表示出现第 r 次成功

时的试验次数, 则 X 服从参数为 (r, p) 的负二项分布(negtive binomial distribution), 常记作

X ∼ Nb(r, p), 其分布律为

P (X = k) =(

k − 1r − 1

)(1− p)k−rpr (2.22)

该分布律的来由如下: 在负二项分布中, 最后一次试验一定出现成功 (概率为 p). 于是

前 k−1次中就只有 r−1次成功,由二项分布即可知这部分的概率为(

k − 1r − 1

)pr−1(1−p)k−r,

再乘以最后一次成功的概率 p, 即得式 (2.22).

几何分布可以视为在 r = 1 时的负二项分布, 而负二项分布的随机变量可以视为若干

个独立同分布的几何分布随机变量之和.明白这一点, 可以很好地理解负二项分布的期望和

方差为什么分别为

E(X) =r

pVar(X) = r

1− p

p2(2.23)

例 2.15 据南开八卦小分队的研究,每天中午 11:30至 12:30之间,南开二食堂门口的

美女出现率为 20%. 柴教授决定在该时间段在食堂门口亲自验证这一论断. 回答以下问题.

(1) 若此概率为真, 平均而言, 他需要观察多少女生, 才能遇到一位美女?

(2) 连续观察 10 名女生, 仍未发现美女的概率多大?

(3) 柴教授遵循如下的思维方式: 发生概率小于等于 5% 的事件是小概率事件, 仅做一

次观测的话, 这种事件不应当发生. 但如果在仅有的一次观测中这种事件真的发生了, 那人

们就更应当倾向于认为之前提供的关于这一事件发生的信息存在误导的可能. 设他在该时

间段总共观察了 100名女生,认定的美女人数为 10人,请问根据上述思维模式,他是否有足

够的理由认为:八卦小分队提出的 “二食堂门口美女率为 20%”这一论断有抬高美女率的可

能?这里均假定人们对美女的判定标准相同,且设在此时间段南开大学有足够多的女生路过

二食堂门口.

解 (1) 设 X 为发现第一名美女时已观察的女生数. 若八卦小分队的概率为真, 则近

似有 X ∼ G(0.2). 故 E(X) = 5, 即平均而言需要观察 5 人才能遇到一位美女.

Page 45: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 45

(2) 连续观察 10 名女生, 仍未发现美女的概率为 P (X > 10) = 1 − P (X 6 10) =

0.1073742. 也就是说, 如果柴教授连续观察 100 天, 大约只有不到 11 天的时间, 会出现连续

观察 10 名女生而未见到一位美女的情况.

这里的计算使用了统计软件, R能快捷地实现这些运算.此题的 R语言命令为 1-pgeom(9,

0.2),其中, pgeom(k-1, p)给出的是失败次数小于等于 k− 1的几何分布的累积概率.注意

几何分布实际上是 r = 1 时的负二项分布.

另外, 要注意在 R 的帮助文档中, pgeom()(R 中的函数名称后习惯带有小括号) 应当为

pgeom(q, p), 给出失败次数小于等于 q 的几何分布的累积概率. 这里为了适应本书中的公

式记号, 做了一定的符号变动, 但不影响实质.

(3) 若 0.2 这一概率为真, 以 X 表示观察的 100 名女生中的美女人数, 则近似有 Y ∼B(100, 0.2). 故

P (Y 6 10) =10∑

k=0

(100k

)0.2k0.8100−k = 0.005 696 381 < 0.05

实现最后计算的 R 语言命令为 pbinom(10,100,0.2)

这是一个极其小的概率.或者说,如果美女率真为 0.2, “观察 100名女生而出现 10名或

10 名以下美女” 这个事件是极不可能发生的. 但是柴教授竟然在一次观测中遇到了, 所以,

他可以合理地怀疑这一概率是不对的: 八卦小分队存在注水 “美女率” 的可能!

这实际上已经利用了 “小概率事件原理”(概率极小的事件在一次观测中不应该发生;但

如果它真的发生, 那么可以认为其发生的概率并不像宣称的那么小) 这一概率上的反证法.

注意这里使用了 “观察 100名女生而出现 10名或 10名以下美女”的复合事件,而不仅仅是

“观察 100 名女生而出现 10 名美女” 的单一事件, 作为反驳的理由. 我们将在假设检验一章

再对此进行更深入的探讨.

2.3.4 超几何分布

超几何分布(hyper-geometric distribution) 常用于有限总体中的无放回抽样情形: 在 N

件产品中有 M 件次品, 从中无放回地任取 n 件, 其中恰有 k 件的次品的概率为何? 通常这

里的 N 不是很大, 所以每次无放回地抽取之间不宜视为独立的, 不能直接使用二项分布来

计算. 但根据组合的基本知识, 很容易得出如下结论:

P (X = k) =

(M

k

)(N −M

n− k

)

(N

n

) , k = 0, 1, 2, · · · , r (2.24)

式中: r 取 M, N 中的较小者, 且 M 6 N, n 6 N, n,N,M 均为正整数.

可以验证,式 (2.24)其实是个概率律.这里不去展开验证,其要点仅在于验证r∑

k=0

P (X =

k) = 1. 总之, 称具有式 (2.24) 之概率分布律的随机变量 X 服从超几何分布, 这里记为

X ∼ H(n,N,M).

Page 46: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

46 R 语言统计学基础

可以求得超几何分布的期望和方差分别为

E(X) = nM

NVar(X) =

nM(N −M)(N − n)N2(N − 1)

(2.25)

结论较长, 也不必硬记, 需要时查阅一下即可.

现实生活中的抽样问题通常是无放回的, 因而是超几何分布的问题.严格符合二项分布

的例子反而不是很常见.但从上面的分析可以知道,超几何分布的计算较为烦琐. 实际上,当

抽出的样品远小于样品总数时, 超几何分布可以用二项分布来近似模拟, 这是因为相对而言

当 N 很大而 n 很小时, 每次抽取后的次品率与初始次品率 M/N 相比可以认为几无改变.

此时, 无放回的抽样也可近似看成放回抽样, 可使用二项分布近似:(

M

k

)(N −M

n− k

)

(N

n

) ≈(

n

k

)pk(1− p)n−k,其中p =

M

N(2.26)

在实际抽样过程中,通常要求在总体量较大的情况下,另外要求样本量是总体量的 1/10

以下. 这样在一般的计算中, 可以认为无放回抽样的结果与有施加抽样的结果较为近似. 满

足这一要求的总体称为 “相对较大总体”(relatively large population). 以后在统计学时会重

新遇到这一条件.

2.4 常用连续型随机变量

下面重点讲解均匀分布、指数分布和正态分布等常用连续型分布.

2.4.1 均匀分布

定义 2.14 (均匀分布) 若随机变量 X 的密度函数为

f(x) =

1b− a

, a < x < b;

0, 其他(2.27)

则称 X 服从区间 (a, b) 上的均匀分布(uniform distribution), 记为 X ∼ U(a, b). 注意也有一

些教材对均匀分布密度函数的定义区间包括了端点值, 即 [a, b].

很容易求得均匀分布的期望和方差为 (证明留作练习)

E(X) =a + b

2Var(X) =

(a− b)2

12

若 X ∼ U(a, b), 则对任意满足条件 a < c < c + l < b 的 c 和 c + l, 均有

P (c < X < c + l) =∫ c+l

c

1b− a

dx =l

b− a

即随机变量 X 取值位于区间 (a, b) 中任一子区间的概率与该区间的长度成正比, 但与小区

间的位置无关. 这正是关于均匀分布较为准确的语言描述. 想一想: 为什么上述语言不直接

描述成 “随机变量 X 取区间 (a, b) 中任一值的概率相等, 而与该取值的位置无关”?

Page 47: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 47

在实际应用中, 计算机的数值运算产生的四舍五入误差, 以及每隔一定时间都有一辆地

铁经过的站台上的乘客的等车时间, 均可视为服从均匀分布.

例 2.16 设 X ∼ U(0, 20). 对 X 进行独立的 10 次观测, 求至少有一次其值大于 10

的概率.

解 显然, 对任一次观测, P (X > 10) = 0.5(为什么?).

设 Y 为 10 次独立观测中的 X 的值大于 10 的次数. 分析条件可知 X ∼ B(10, 0.5). 故

1− P (Y = 0) = 1−(

100

)× 0.50 × 0.510 = 0.999 023 4

即为所求概率.

最后一步的 R 命令为 1-pbinom(0, 10, 0.5).

2.4.2 指数分布

定义 2.15 (指数分布) 若随机变量 X 的密度函数为

f(x) =

λe−λx, x > 0;

0, x < 0.(2.28)

则称 X 服从指数分布(exponential distribution), 记作 X ∼ Exp(λ), 其中参数 λ > 0.

指数分布是一种偏态分布(skewed distribution, 泛指不对称的分布), 其值只能取非负值

(图 2.4). 许多 “寿命” 问题常用来它模拟, 如电子元件的寿命、动物的寿命、电话的通话时

间、随机服务系统中的服务时间等可近似认为服从不同参数的指数分布.

图 2.4 不同均值的指数分布密度函数曲线

指数分布的期望和方差如下:

E(X) =1λ

Var(X) =1λ2

(2.29)

Page 48: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

48 R 语言统计学基础

这是因为

E(X) =∫∞−∞

xf(x) dx =∫∞0

xd(−λe−λx)

= −xe−λx∣∣∣∞

0−

∫∞0

e−λx dx = − 1λ

e−λx∣∣∣∞

0=

类似可得方差的公式, 这里省略. 有时也记 θ = 1/λ, 此时 θ 即为指数分布的期望.

对指数分布的密度函数积分很快可以得出其分布函数为

F (x) =

1− e−λx, x > 0;

0, x < 0(2.30)

指数分布也是一种无记忆的分布.

定理 2.4 设 X ∼ Exp(λ), 则对任意正数 s 和 t, 都有

P (X > s + t|X > s) = P (X > t) (2.31)

无记忆性的意思在几何分布里已经提过.对于指数分布,可做具体化解释如下. 设 X 表

示某产品的使用寿命 (单位: 小时), 则其使用 s 小时而不发生故障的概率为 P (X > s), 在

此基础上再使用 t 小时而不发生故障的概率为 P (X > s + t|X > s), 相当于重新开始使用 t

小时的概率 P (X > t), 而与之前已使用的 s 小时无关.

下面来证明定理 2.4.

证 根据指数分布的概率分布律有

P (X > t) = 1− P (X 6 t) = 1− (1− e−λt) = e−λt

所以

P (X > s + t|X > s) =P (X > s + t ∩ X > s)

P (X > s)

=P (X > s + t)

P (X > s)=

e−λ(s+t)

e−λs

= e−λt = P (X > t)

这就证明了指数分布的无记忆性.

例 2.17 某设备在任何时长为 t 的时间区间 [0, t] 发生故障的次数 N(t) 服从参数为

λt 的泊松分布, 求相继两次故障之间的时间间隔 T 服从的分布.

解 由 N(t) ∼ P (λt), 得

P [N(t) = k] = e−λt (λt)k

k!, k = 0, 1, 2, · · ·

显然 T 是个取值非负的随机变量,且事件 T > t说明时间段 [0, t]内没有发生故障,即

T > t=N(t) = 0, 那么自然有 P (T > t) = P [N(t) = 0].

Page 49: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 49

故当 t < 0 时, FT (t) = P (T 6 t) = 0. 当 t > 0 时, 有 FT (t) = P (T 6 t) = 1 − P (T >

t) = 1− P [N(t) = 0] = 1− e−λt (λt)0

0!= 1− e−λt.

这正满足参数为 λ 的指数分布的定义, 即 T ∼ Exp(λ).

此例实际上说明了泊松分布与指数分布的关系.

例 2.18 根据长时间的统计, 发现顾客在西南村银行的窗口等待服务的时间 (单位:

min) 服从如下指数分布

f(x) =

15e−

x5 , x > 0;

0, x < 0(2.32)

柴教授在窗口等待服务, 若等待时间超过 10min, 就离开银行回到办公室. 他一个月要去银

行 10 次, 以 Y 表示一个月内他未等到服务而离开窗口的次数. 求 P (Y > 2).

解 柴教授未等到服务而离开窗口的概率 p = P (X > 10) = 1− P (X 6 10) = 1− (1−e−2) = e−2. 则显然 Y ∼ B(10, e−2). 故

P (Y > 2) = 1− P (Y 6 1) = 0.400 768 5

最后计算仍使用软件进行. R 语言命令为 1-pbinom(1,10,exp(-2)).

2.4.3 正态分布

正态分布(normal distribution), 又称高斯分布(Gauss distribution), 以纪念数学家高斯

(Friedrich Gauss, 1777—1855) 在该分布的推导过程中的贡献①. 它可能是目前应用得最为

广泛, 因而也是最重要的连续型分布. 通常情况下, 一个变量若是由大量微小而独立的随机

因素的叠加构成,则此变量就是服从正态分布的变量. 例如工业生产中在生产条件不变的情

况下, 产品的强力、抗压强度、口径、长度等指标; 生物学上同一种生物体的身长、体重等

指标; 物理上同一物体的测量误差, 理想气体分子的速度分量; 地理上某个地区的年降水量;

等等.

定义 2.16 (指正态分布) 若随机变量 X 的概率密度函数为

f(x) =1√2πσ

e−(x−µ)2

2σ2 ,−∞ < x < ∞ (2.33)

则称 X 服从正态分布, 记作 X ∼ N(µ, σ), 其中 µ 可取任意实数, σ > 0. 其分布函数为

F (x) =1√2πσ

∫x

−∞e−

(t−µ)2

2σ2 dt,−∞ < x < ∞ (2.34)

注意 F (x) 并不是一个初等函数.

国内多数教材将服从正态分布的变量记作 X ∼ N(µ, σ2),这与此处的记法稍有区别,请

大家注意分辨. 这里主张记成 X ∼ N(µ, σ), 一来是与多数国外概率统计教材兼容; 二来以

后大家会发现, 在计算中使用 σ2 的时候并不多, 真正起作用的多数还是 σ 本身.

① 关于正态分布的一个较有可读性 (但仍需具备一定的微积分基础) 的文档是靳志辉的网络公开文档《正态分布

的前世今生》, 大家可网络搜索后下载阅读.

Page 50: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

50 R 语言统计学基础

正态分布的期望和标准差分别是密度函数中的两个参数: µ 和 σ. 后面将证明这一结

论, 这里暂不展开.

正态分布概率密度函数的图形称为正态曲线(normal curve),又称误差曲线 (error curve),

原因是因为它的诞生源自高斯等人对天文学观测误差的分析. 除了一般的概率密度曲线共

有的特征外, 正态曲线 (图 2.5) 还具有如下特征:

(1)正态曲线是一条钟形 (bell-shaped)、对称 (symmetric)的单峰 (uni-modal,即只有一

个峰值) 曲线, 其对称轴方程为 x = µ;

(2) 正态曲线向 x 轴两端无限延伸但永不相交, 即其渐近线 (asymptote) 为 x 轴;

(3) 正态曲线中, 中位数 (median)、众数 (mode) 和均值 (mean) 三数重合;

(4) 正态曲线在 µ± σ 处存在拐点 (inflection points).

图 2.5 正态曲线

正态分布有多种不同类型和形态, 这取决于其两个参数:均值 (µ) 与标准差 (σ). 其中,

均值决定的是图形在水平位置上的相对位置, 均值越大, 图形越靠右 (图 2.6).

图 2.6 同方差、不同均值的正态曲线

而标准差决定的是图形的陡峭程度 (或者说胖瘦), 标准差越大, 图形越扁平 (胖), 标准

差越小, 图形越陡峭 (图 2.7). 这是因为标准差是衡量数据离散程度 (偏离均值的程度) 的

量, 这一量越大, 说明数据分布得越分散, 体现在图形上就是越扁平;这一量越小, 说明数据

Page 51: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 51

越集中, 图形自然就越陡峭.

图 2.7 同均值、不同方差的正态曲线

正态分布是一类分布, 有无数个具体类型. 能否找到一个具有典型性的正态分布, 以此

来推导其他正态分布? 答案是肯定的. 这就是标准正态分布.

定义 2.17 (标准正态分布) 若随机变量 X 的概率密度函数为

f(x) =1√2π

e−x22 ,−∞ < x < ∞ (2.35)

则称 X 服从标准正态分布(standard normal distribution), 记作 X ∼ N(0, 1), 即标准正态分

布的期望为 0, 方差和标准差为 1. 习惯上专门将服从标准正态分布的随机变量记为 Z, 即

Z ∼ N(0, 1). 其分布函数为

F (x) =1√2π

∫x

−∞e−

t22 dt,−∞ < x < ∞ (2.36)

下面给出一个重要的定理.

定理 2.5 (正态分布的标准化) 若 X ∼ N(µ, σ), 令 Z =X − µ

σ, 则 Z ∼ N(µ, σ). 这一

过程称为正态分布的标准化(standardization).

证 记 X 和 Z 的分布函数分别为 FX 和 FZ , 对应的密度函数分别为 fX(x) 与 fZ(z).

FZ(z) = P (Z 6 z) = P

(X − µ

σ6 z

)= P (X 6 µ + zσ) = FX(µ + zσ)

由于正态分布函数是严格单调增函数,且处处可导. 对上式的最终结果 FZ(z) = FX(µ+

zσ) 两侧对 z 求导, 得

fZ(z) =d

dzFX(µ + zσ) = fX(µ + zσ) · σ =

1√2πσ

e−(µ+zσ−µ)2

2σ2 · σ =1√2π

e−z22

这正是标准正态分布的概率密度函数, 故 Z ∼ N(0, 1). 其中 Z 的对应取值通常称为 “z 分

数”(z-score), 又称 z 分位数 (quantile) 和标准分(standardised score).

正态分布的标准化在许多定理的证明中扮演着重要的角色.

例 2.19 设 X ∼ N(µ, σ), 求 E(X) 和 Var(X).

Page 52: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

52 R 语言统计学基础

解 这里提供一种常见的解法, 这种解法具有典型性. 令 Z =X − µ

σ, 根据定理 2.5, 知

Z ∼ N(0, 1). 故

E(Z) =∫∞−∞

z1√2π

e−z22 dz

注意上式中的被积函数 (integrand) 是个奇函数, 而奇函数在关于原点对称的区间上的积分

为 0(若该积分收敛). 故 E(Z) = 0. 其方差为

Var(Z) = E(X2)− [E(X)]2 = E(X2) =∫∞−∞

z2 1√2π

e−z22 dz

=1√2π

∫∞−∞

z2e−z22 dz =

1√2π

∫∞−∞

z d (−e−z22 )

=1√2π

[z(−e−

z22 )

∣∣∣∞

−∞−

∫∞−∞

−e−z22 dz

]

=1√2π

∫∞∞

e−z22 dz =

1√2π

·√

2π = 1

倒数第二个等号成立是因为利用了微积分中关于 Γ(大写的希腊字母 Gamma) 函数中的一

个重要性质:∫∞0

e−x2dx =

√π/2,此积分常称为概率积分,因为在概率论中应用广泛,值得记

住. 此式中用 t/√

2 代替 x, 有

∫∞0

e−( t√2)2 d

(t√2

)=

1√2

∫∞0

e−t22 dt =

√π

2

由此即可得

∫∞−∞

e−t22 dt = 2

∫∞0

e−t22 dt = 2 ·

√2 · √π2

=√

若熟悉二重积分的极坐标变换, 也可通过此方式直接解出此概率积分.

关于 Γ 函数这里不做具体展开, 详细内容请参阅相关微积分教材. 常见的连续型分布

中其实还有 Gamma 分布和 Beta 分布, 均与此函数密切相关. 但这两类分布在初级统计学

中应用较少, 这里不做具体介绍.

上面的运算实际上证明了标准正态分布的期望为 0, 方差为 1. 利用期望和方差的性质

很快就可得出要证的结论:

E(X) = E(µ + Zσ) = E(µ) + 0 = µ;

Var(X) = Var(µ + Zσ) = σ2Var(Z) = σ2

在传统教材中, 一般正态分布的概率计算问题,通常需将此一般变量转化为标准正态变

量, 然后再查标准正态分布表而算得结果. 随着软件的进步, 任意正态分布的概率计算问题

已经完全可通过命令实现, 标准正态分布在数值计算中的作用已不那么明显, 但在理论推导

过程中仍扮演重要角色.

Page 53: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 53

例 2.20 计算以下概率.

(1) P (−2 6 Z 6 2), Z ∼ N(0, 1);

(2) P (Z > 2), Z ∼ N(0, 1);

(3) P (−2 6 X 6 2), X ∼ N(4, 2);

(4) P (X > 20), X ∼ N(15, 10).

解 (1) R: pnorm(2)-pnorm(-2)=0.9545;

R 中计算正态分布累积概率分布的语法命令如下: pnorm(q, mean =, sd = ), 默认

mean=0, sd=1, 即标准正态分布; q 表示指定的分位数 (quantile), 即 P (X < x) 中的 x.

例如, pnorm(2,0,1) 或 pnorm(2) 给出的是 P (X 6 2), X ∼ N(0, 1) 的概率值.

在求正态分布的概率分布方面 R 语言的语法优势较为明显, 其他正态分布仍需要手动

进行标准化再得出. 非标准正态分布的概率计算参见此处例 (3).

(2) R: 1-pnorm(2)=0.0228.

(3) 传统的做法为

P (−2 6 X 6 2) = P (X 6 2)− P (X < −2)

= P

(X − 4

26 2− 4

2

)− P

(X − 4

2<−2− 4

2

)

= P (Z 6 −1)− P (Z < −3)

然后再查阅标准正态分布表进行计算. 注意这是连续型的分布, 故等于号是否取到, 不影响

最终的概率.

如果使用软件, 可以一步到位地求出.

R: pnorm(2,4,2)-pnorm(-2,4,2)=0.1573.

(4) R: 1-pnorm(20,15,10)=0.3085.

例 2.21 某地区成年男子体重 X(单位: kg) 近似服从正态分布 N(µ, σ). 若已知

P (X 6 70) = 0.5, P (X 6 60) = 0.25, 求:

(1) µ 与 σ;

(2) 若在此地区随机抽取 10 名成年男子, 问其中至少 5 人体重超过 65kg 的概率.

解 (1) P (X 6 70)=P

(X − µ

σ<

70− µ

σ

)=P

(Z 6 70− µ

σ

)= 0.5, 由此知

70− µ

σ=

0, 故 µ = 70.

而P (X 6 60) = P

(Z 6 60− 70

σ

)= 0.25. 使用软件求出 0.25对应的 z分数为 −0.6745,

即60− 70

σ= −0.6745. 由此得 σ = 14.78.

使用 R求 z 分数的命令如下: qnorm(0.25). 实际上,R提供了无须标准化情况下的反求

z 分数命令, 即 qnorm(p, mean = , sd = ), 在知道均值与标准差的情况下, 可一步到位地

求出.

(2) 记 Y 为从此地区随机抽取的 10 名成年男子中, 体重超过 65kg 的人数. 则

Y ∼ B(10, p), 其中 p = P (X > 65) = 0.632 42. 这里假定了每个成年男子的身高相互独

立. 故所求概率为 P (Y > 5) = 1− P (Y 6 4) = 0.882 8. 计算均使用软件进行.

Page 54: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

54 R 语言统计学基础

例 2.22 设某市成年男子身高 X 近似服从正态分布 N(172, 6)(单位:cm).

(1) 问应如何选择公共汽车车门的高度使男子与车门碰头的机会小于 0.01? (精确到整

数位)

(2) 若车门高 185 cm, 求 100 个成年男子中与车门碰头的人数不多于 2 个的概率.

解 (1) 设车门高度应设为 a cm 才能满足要求, 即 P (X > a) = 1 − P (X 6 a) =

0.01, X ∼ N(172, 6). 这相当于求 P (X 6 a) = 0.99 中的 a.

利用 R 软件输入命令 qnorm(0.99, 172, 6) 得答案为 185.958 1 ≈ 186 即为所求高度.

(2) 设 Y 为 100 个该市成年男子中与车门碰头的人数, 则近似有 Y ∼ B(100, p), 其中

p = P (X > 185) = 0.015 1. 这里假定每个成年男子的身高之间相互独立. 故所求概率为

P (Y 6 2) = 0.807 3. 计算使用软件进行, R 命令为: pbinom(2,100,0.0151).

例 2.23 设 X ∼ N(µ, σ). 求以下概率:

(1) P (µ− σ 6 X 6 µ + σ);

(2) P (µ− 2σ 6 X 6 µ + 2σ);

(3) P (µ− 3σ 6 X 6 µ + 3σ).

解 三个题的解法是一致的, 这里重点说明第 (1) 小问, 后面的类似得出

P (µ− σ 6 X 6 µ + σ) = P (X 6 µ + σ)− P (X 6 µ− σ)

= P

(Z 6 µ + σ − µ

σ

)− P

(Z 6 µ− σ − µ

σ

)

= P (Z 6 1)− P (Z 6 1)

= 0.682 7

最后的计算使用软件得出. 后面两题可以类似解出答案如下

P (µ− 2σ 6 X 6 µ + 2σ) = 0.954 5;

P (µ− 3σ 6 X 6 µ + 3σ) = 0.997 3

实用中通常将此称为 “68-95-99.7” 定律, 即对于服从正态分布的变量而言, 有 68% 的

取值落在均值左右各一个标准差的范围内; 有 95% 的取值落在均值左右各两个标准差的范

围内; 99.7% 落在均值左右各三个标准差的范围内. 这可以方便人们迅速地得到关于分布的

一些基本信息. 例如, 如果告知中国成年女性的身高服从 N(163, 6)(单位: cm) 分布, 则可很

快知道: 大约有 68% 的我国成年女性身高在 157 cm 至 169 cm 之间, 大约有 95% 的我国

成年女性身高在 151 cm 至 175 cm 之间, 大约有 99.7% 的我国成年女性身高在 145 cm 至

181 cm 之间, 这应该还是比较符合实际感知的.

实际上,此规律不仅仅适用于分布,对于大体上钟型对称的分布,它也同样适用的,这称

为经验法则(empirical rule). 这在第 3 章会有进一步的介绍.

除了上述分布外, 常用的连续型分布还有 t 分布、χ2 分布、F 分布, 会在阐述抽样分布

的内容时再行介绍.

Page 55: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 55

2.5 随机变量函数的分布

本章一开始就提出, 若 X 为随机变量, 则任何关于 X 的函数 g(X) 也是一个随机变量.

那么 g(X) 也会拥有自身的分布函数. 如何通过 X 的分布来求 g(X) 的分布, 自然成为一个

值得研究的问题.

2.5.1 离散型随机变量的情形

X 为离散型随机变量的情形较为简单. 设 X 的概率分布列如下:

X x1 x2 · · · xn · · ·P (X) p1 p2 · · · pn · · ·

此时 g(X) 也为离散型随机变量, 其所有可能取值及对应的概率如下:

X g(x1) g(x2) · · · g(xn) · · ·P (X) p1 p2 · · · pn · · ·

再将上表中等值 [g(xi) = g(xk),其中i, k = 1, 2, · · · ] 的概率相加, 即可得到 g(X) 的分

布. 下面仅举一例.

例 2.24 设随机变量 X 的分布列如下, 求 Y = |X| 和 Z = X2 + X 的分布列.

X −1 0 1

P (X) 0.2 0.3 0.5

解 Y 的所有可能取值为 0, 1, 而

P (Y = 0) = P (X = 0) = 0.3

P (Y = 1) = P (X = 1) + P (X = −1) = 0.7

故 Y 的分布列如下:

Y 0 1

P (Y ) 0.3 0.7

类似地, Z 的可能取值为 0, 2, 且

P (Z = 0) = P (X = −1) + P (X = 1) = 0.5

P (Z = 2) = P (X = 1) = 0.5

故其分布列如下:

Z 0 2

P (Z) 0.5 0.5

Page 56: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

56 R 语言统计学基础

2.5.2 连续型随机变量的情形

连续型随机变量的函数的分布稍显麻烦.这里先给出三个简单的例子, 再给出较为统一

的方法.

例 2.25 设随机变量 X ∼ U(0, 1). 求 Y = Xn 的分布.

解 由条件知

fX(x) =

1, 0 < x < 1;

0, 其他

FX(x) =

0, x < 0;

x, 0 6 x < 1;

1, x > 1

显然 Y 的可能取值区间为 (0,1). 当 0 < y < 1 时,

FY (y) = P (Y 6 y) = P (Xn 6 y) = P (X 6 y1n ) = FX(y

1n ) = y

1n

对上式关于 y 求导, 得 Y 的密度函数为

fY (y) =

1n

y1−n

n , 0 < y < 1;

0, 其他(2.37)

例 2.26 设连续型随机变量 X 的密度函数为 fX(x), 求 Y = X2 的密度函数.

解 显然 Y > 0. 对任意的 y > 0, 有 FY (y) = P (Y 6 y) = P (X2 6 y) = P (−√y 6X 6 √

y) = FX(√

y)− FX(−√y)

对上式关于 y 求导, 整理后可得 Y 的密度函数为

fY (y) =

12√

y[fX(

√y) + fX(−√y)] , y > 0;

0, y < 0(2.38)

例 2.27 设连续型随机变量 X 的密度函数为 fX(x), 求 Y = |X| 的密度函数.

解 同上述两例, 对任意 y > 0, 有 FY (y) = P (Y 6 y) = P (|X| 6 y) = P (−y 6 X 6y) = FX(y)− FX(−y), 求导即得 Y 的密度为 fX(y) + fX(−y), y > 0.

上述三题的共同特征, 都是通过 Y = g(X) 的关系, 先按定义写出 Y 的分布函数, 然后

对之求导得到密度函数. 这通常称为 “分布函数法”, 即

FY (y) = P (Y 6 y) = P (g(X) 6 y) =∫

g(x)6y

fX(x) dx (2.39)

然后再得到 fY (y) =dFY (y)

dy.

Page 57: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 57

当 Y 的分布函数好求时常用此法. 另外, 对于既非离散型、又非连续型的随机变量的

函数的分布, 这一方法也是适用的, 可视为一种通用方法.

从上述例子中实际上还可得出一种适用于特殊情形的求法,这里称为公式法. 这可总结

为如下定理.

定理 2.6 设 X 为连续型随机变量,其密度函数为 fX(x). 令 Y = g(X),若 y = g(x)

为严格单调的函数, 且其反函数 x = h(y) 具有一阶连续导数时, 则 Y = g(X) 也是连续型随

机变量, 其密度函数为

f(x) =

fX [h(y)] · |h′(y)|, a < y < b;

0, 其他(2.40)

式中: (a, b) 为 y = g(x) 的值域.

证 先设 y = g(x) 为严格单调递增的函数.

当 Y 6 a 时, FY (y) = 0; 当 Y > b 时, FY (y) = 1.

当 a < Y < b 时,

FY (y) = P (Y 6 y) = P [g(X) 6 y] = P (X 6 h(y)) = FX [h(y)] =∫h(y)

−∞fX(x) dx

由于 y = g(x) 为严格单调递增的函数, 则 h = g(y) 同样为严格单调递增函数 (想一想

为什么?). 故 h′(y) > 0. 对上式对 y 求导, 有

fY (y) = fX [h(y)] · h′(y)

同理可证得当 y = g(x) 为严格单调递减函数时, 上述过程也成立, 但要对 h′(y) 加上绝

对值符号 [具体过程略去不证, 简单可理解如下: 如果不加绝对值符号, fY (y) 将是负的, 不

满足密度函数的要求].

下面用定理 2.6 来证明一个重要结论, 并以定理形式呈现.

定理 2.7 若 X ∼ N(µ, σ), 则 Y = aX + b ∼ N(aµ + b, |a|σ), 其中 a, b 为常数, 且

a 6= 0.

证 X 与 Y 的取值范围均为 (−∞,∞).

当 a > 0 时, y = ax + b(a 6= 0) 为严格增函数, 其反函数为 x = h(y) =y − b

a, h′(y) =

1a.

于是根据定理 2.6 有

fY (y) = fX [h(y)] · h′(y) = fX

(y − b

a

)· 1a

=1√2πσ

e−( y−b

a−µ)2

2σ2 · 1a

=1√

2π(aσ)e−

[y−(aµ+b)]2

2(aσ)2

这正是正态分布 N(aµ + b, aσ) 的密度函数.

当 a < 0 时, y = ax + b(a 6= 0) 为严格减函数, 其反函数为 x = h(y) =y − b

a, h′(y) =

1a.

利用定理 2.6 有

fY (y) =1√

2π(|a|σ)e−

[y−(aµ+b)]2

2(aσ)2

Page 58: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

58 R 语言统计学基础

这是正态分布 N(aµ + b, |a|σ) 的密度函数. 从而定理得证.

此定理表明, 正态分布的线性变换仍服从正态分布,其期望和方差可直接从这一结果中

求得.

例 2.28 设 X ∼ N(0, σ), 求 Y = −X 的分布.

解 Y = −X 仍在 (−∞,∞) 上取值, y = −x 的反函数为 x = −y, 故由定理 2.7 有

Y ∼ N(0, σ). 即 X 与 Y 的分布相同. 这也说明, 分布相同与随机变量相等是两个不同的概

念, 不同的随机变量也可以有相同的分布.

2.6 分布的其他特征数

除期望和方差外,分布可以用其他特征数来描述,这主要包括矩、变异系数、分位数、峰

度系数和偏度系数等.

2.6.1 k 阶矩

定义 2.18 (矩) 设 X 为随机变量, k 为正整数, 则称

µk = E(Xk) (2.41)

为k 阶原点矩(original moment), 称

νk = E[X − E(X)]k (2.42)

为k 阶中心矩(central moment). 也可将矩统一定义为 E[(X − c)k], 当 c = 0 时就是原点矩,

当 c = E(X) 时就是中心矩.

显然, 一阶原点矩就是期望, 二阶中心矩就是方差. 矩 (moment) 的概念翻译来自物理

中的力学. 力矩是力的大小与到支点距离的乘积. 如果将概率分布类比于物体的质量分布,

则数学期望 (一阶矩) 相当于重心, 方差 (二阶矩) 相当于转动惯量, 等等.

前 k 阶中心矩其实可以用原点矩表示, 一般的形式为

νk = E[X − E(X)]k = E(X − µ1)k (2.43)

前 4 阶的情形如下:

ν1 = 0;

ν2 = µ2 − µ21;

ν3 = µ3 − 3µ2µ1 + 2µ31;

ν4 = µ4 − 4µ3µ1 + 6µ2µ21 − 3µ4

1 (2.44)

另外, 当随机变量 X ∼ N(0, σ) 时, 可以利用上述定义求得其前 4 阶原点矩和中心矩如

下 (过程从略)

µ1 = ν1 = 0;

µ2 = ν2 = σ2;

Page 59: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 59

µ3 = ν3 = 0;

µ4 = ν4 = 3σ4

这些结论后面将会用到. 在后期概率论和统计学的相关学习中,可能会遇到更多矩的概

念和相关应用, 这里只列出最基本的情况, 不再详细展开.

2.6.2 变异系数

方差虽可衡量随机变量的波动性, 但方差的大小受随机变量本身取值大小的影响很大.

在看待本身取值很大的随机变量时, 即便存在较大方差也可以理解为波动较小; 但若随机变

量的取值很小, 存在较大方差则肯定意味着波动较强. 这里有个相对性的问题: 取值较大的

随机变量, 通常也允许有大的方差. 这样, 在比较两个随机变量的变异性时, 单纯地只比较

其方差就可能存在不合理的情况. 为消除这一影响, 可引入变异系数的概念.

定义 2.19 (变异系数) 称比值

CV(X) =

√Var(X)E(X)

(2.45)

为随机变量 X 的变异系数(coefficient of variation). 也就是说, 变异系数就是随机变量的标

准差除以其期望.

从定义中可以看出, 变异系数是一个没有量纲的量, 用标准差除以期望, 也是为了抵消

随机变量本身取值对方差 (标准差) 的影响. 在衡量两种不同质的随机变量的波动性时, 常

用变异系数作为衡量指标.

2.6.3 分位数

很多概率统计问题最后涉及求满足 F (x) 6 α 时的 x 值, 这里记为 xα. 这里的 xα 就

是所谓的分位数(quantile). 在现代统计回归方法中, 有一大类方法称为分位数回归(quantile

regression), 里面涉及许多分位数的知识, 这里先作一铺垫.

以下仅给出连续场合下的分位数定义. 我们将在后面的统计学内容中再提出一个针对

实际离散数据的实用分位数定义.

定义 2.20 (分位数) 设连续型随机变量 X 的概率密度函数为 f(x), 分布函数为 F (x),

则对任意 0 < α < 1, 称满足

F (xα) =∫xα

−∞f(x) dx = α (2.46)

的 xα 为 X 的 α 分位数, 又称下侧分位数. 当 α 用百分数形式表达时, 也称分位数为百分

位数(percentile).

当 α = 0.5 时, x0.5 就是熟悉的中位数(median), 即 x0.5 满足

F (xα) =∫x0.5

−∞f(x) dx = 0.5

类似地, 当 α = 0.25 和 0.75 时, x0.25 和 x0.75 就是第一四分位数(first quartile) 和第三四分

位数(third quartile).

Page 60: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

60 R 语言统计学基础

若记标准正态分布的 α 分位数为 zα, 则在一般的正态分布 N(µ, σ) 中, α 分位数 xα 满

足 xα = µ + σ · zα.

另外, 称满足

1− F (xα′) =∫∞xα′

f(x) dx = α (2.47)

的 xα′ 为上侧分位数. 在有些场合, 使用上侧分位数会比较方便.

2.6.4 偏度系数

正态分布是一个标准的对称型分布, 但并不是所有的分布都具有对称性. 此时, 其左右

偏的程度就可以用偏度(skewness) 来描述.

定义 2.21 (偏度系数) 称比值

βs =E[X − E(X)]3

[E(X − E(X))2]32

(2.48)

为随机变量 X 的分布的偏度系数(coefficient of skewness).

偏度系数刻画的是分布的不对称程度, 或偏态(skewedness) 程度. 从定义中实际可推导

得知任一对称型分布的偏度为 0, 故任意正态分布的偏度为 0. 当 |βs| 越大, 分布的对称性

越差. 当 βs > 0 时, 分布为正偏(positively skewed), 又称右偏(right skewed), 从密度函数的

图像上看, 此时其右侧尾巴比较长; 当 βs < 0 时, 分布为负偏(negatively skewed), 又称左

偏(left skewed), 此时其左侧尾巴比较长. 正偏对应右偏, 负偏对应左偏, 是因为正值在数轴

上的右侧, 而负值在数轴上的左侧. 左偏是指更多的值分布在右侧, 但左侧有少数偏离中心

的值; 右偏是指更多的值分布在左侧, 但右侧有少数偏离中心的值 (图 2.8).

图 2.8 左偏、右偏与对称型分布

2.6.5 峰度系数

峰度 (kurtosis) 是用来描述分布的尖峭程度或尾部的粗细程度的一个特征量.

Page 61: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 61

定义 2.22 (峰度系数) 称比值

βk =E[X − E(X)]4

[E(X − E(X))2]2− 3 (2.49)

为随机变量 X 的分布的峰度系数(coefficient of kurtosis).

峰度系数是以正态分布为基准构建的. 任一正态分布的峰度为 0. 当 βk < 0 时, 分布比

正态密度函数的图形峰部更平坦,尾部更粗 (heavy tail);当 βk > 0时,分布比正态密度函数

的峰部更尖峭, 尾部更细 (light tail).

关于正态分布的偏度系数和峰度系数的推导均可由前面 k 阶矩的相关知识和结论推导

得出, 这里不细展开. 实际工作中, 这两个系数通常由软件去计算, 公式仅作为参考之用. 这

两个系数的设置均以正态分布为基准构建, 当一个未知分布的 βs 和 βk 均接近 0 时, 常认

为该分布近似于正态分布. 这在以后的数据正态性检验中具有重要的实际作用.

2.7 多维随机变量初步

现实中仅研究一个随机变量的分布往往是不够的, 通常需要联合其他随机变量的分布

来研究随机现象.例如身高与体重的规律,车流量与车祸的发生率,等等,这就会遇到多维随

机变量的情形. 多维随机变量包括二维和二维以上的情形,这里仅对二维的情况做出简单概

括, 二维以上的情形可类似给出. 多维随机变量的内容涉及重积分的内容, 计算上相对烦琐,

这里不具体展开, 仅介绍相关基本概念与定义, 以便引出随机变量的独立性, 相关系数与协

方差等入门统计学中常涉及的基本概念.

2.7.1 多维随机变量的基本概念

定义 2.23 (n 维随机变量) 若 X1(ω), X2(ω), · · · , Xn(ω) 是定义在同一样本空间 Ω =

ω 上的 n 个随机变量, 则称

X(ω) = (X1(ω), X2(ω), · · · , Xn(ω)) (2.50)

为n 维 (或 n 元) 随机变量, 又称随机向量(random vector).

多维随机变量定义在同一样本空间上, 这可以为以下的讨论提供方便.

定义 2.24 (联合分布函数) 对任意 n个实数 x1, x2, · · · , xn, n个事件 X1 6 x1,X2 6x2, · · · , Xn 6 xn 同时发生的概率

F (x1, x2, · · · , xn) = P (X1 6 x1, X2 6 x2, · · · , Xn 6 xn) (2.51)

称为 n维随机变量的联合概率分布函数(jointly culmulative probability distribution function),

简称联合分布函数. 等式右侧中的逗号即表示同时发生的意思.

在二维随机变量 (X, Y ) 的场合, 联合分布函数 F (x, y) = P (X 6 x, Y 6 y) 就是事件

X 6 x, Y 6 y共同发生的概率.任意二维随机变量的联合分布函数都满足单调性、规范

性、有界性这三个与一维随机变量的分布函数相同的特征, 同时还满足非负性这一特征, 即

Page 62: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

62 R 语言统计学基础

对任意的 a < b, c < d 有

P (a < X 6 b, c < y 6 d) = F (b, d)− F (a, d)− F (b, c) + F (a, c) > 0 (2.52)

满足这四条性质的二元函数 F (x, y) 一定可以作为某个二维随机变量的联合分布函数.

证明从略.

定义 2.25 (联合概率质量函数) 若二维随机变量 (X, Y ) 只有有限个或可列个数对

(xi, yj), 则称

pij = P (X = xi, Y = yj), i = 1, 2, · · · , j = 1, 2, · · · (2.53)

为二维随机变量的联合概率质量函数(jointly probability mass function),或称联合分布列,此

时 (X, Y ) 为二维离散随机变量.

定义 2.26 (联合密度函数) 若存在二元非负函数 f(x, y),使得二维随机变量 (X, Y )的

联合分布函数 F (x, y) 可表示为

F (x, y) =∫x

−∞

∫y

−∞f(u, v) dv du (2.54)

则称 (X, Y )为二维连续随机变量(jointly continuous random variable),并称 f(x, y)为 (X, Y )

的联合密度函数(joint probability density function).

在 F (x, y) 的偏导数存在的点, 有

f(x, y) =∂

2

∂x ∂yF (x, y) (2.55)

结合联合密度函数, 就可以求出有关事件的概率. 设 G 为平面上的某个区域, 则事件

(X, Y ) ∈ G 的概率即可表示为在 G 上的二重积分

P ((X, Y ) ∈ G) =∫∫

G

f(x, y) dxdy

积分过程中, 应注意积分范围实际上是 f(x, y) 的非零区域与 G 的交集, 然后设法将重

积分转为累次积分,即可求得相关概率.同时要注意, “直线的面积为零”,即积分区域的边界

是否在积分区域内不影响概率计算结果.

联合分布列和联合密度函数同样满足非负性和规范性两大要求.

由联合分布函数可求得 X 或 Y 的分布函数 FX(x) 和 FY (y), 此时称它们为 (X, Y ) 的

边际分布(marginal distribution), 其中 FX(x) 称为 X 的边际分布, FY (y) 称为 Y 的边际分

布. 这只要在联合分布函数 F (x, y) 中令 y →∞, 而事件 y < ∞ 为必然事件, 故

F (x,∞) = limy→∞

F (x, y) = P (X 6 x, Y < ∞) = P (X 6 x) = FX(x) (2.56)

类似可有 F (∞, y) = P (X < ∞, Y 6 y) = P (Y 6 y) = FY (y)

由联合分布函数还可定义边际分布列和边际密度函数的概念.

Page 63: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 63

定义 2.27 (边际分布列) 在二维离散随机变量 (X, Y )的联合分布列 P (X = xi, Y = yj)

中, 对 j 求和得到的概率分布列

∞∑

j=1

P (X = xi, Y = yj) = P (X = xi), i = 1, 2, · · · (2.57)

称为 X 的边际分布列. 类似地, 对 i 求和得到的概率分布列

∞∑

i=1

P (X = xi, Y = yj) = P (Y = yj), j = 1, 2, · · · (2.58)

称为 Y 的边际分布列.

若二维随机变量 (X, Y ) 的联合密度函数为 f(x, y), 则

FX(x) = F (x,∞) =∫x

−∞

(∫∞−∞

f(u, v) dv

)du =

∫x

−∞fX(u) du

FY (y) = F (∞, y) =∫y

−∞

(∫∞−∞

f(u, v) du

)dv =

∫y

−∞fY (v) dv

其中

fX(x) =∫∞−∞

f(x, y) dy (2.59)

fY (y) =∫∞−∞

f(x, y) dx (2.60)

它们正处于密度函数的位置, 故称上式给出的 fX(x) 和 fY (y) 分别为 X 和 Y 的边际密度

函数.

通俗地讲, 上式的意思就是在知道 (X, Y ) 的联合分布函数时, 只要对 “用不到” 的那个

随机变量在 (−∞,∞)上进行积分,即可得到另一随机变量的密度函数. 由此可见,二维联合

分布函数不仅含有每个分量的概率分布, 而且还含有两个变量 X 与 Y 之间关系的信息, 这

正是研究多维随机变量的优势. 当然,这里还要注意具有相同边际分布的多维联合分布仍可

以是不同的.

2.7.2 随机变量的独立性

随机变量的独立性定义类似于事件之间独立性的定义.

定义 2.28 (随机变量的独立性) 设 n维随机变量 (X1, X2, · · · , Xn)的联合分布函数为

F (x1, x2, · · · , xn), 随机变量 Xi 的分布函数为 F (xi), 若对任意的实数 x1, x2, · · · , xn 都有

F (x1, x2, · · · , xn) =n∏

i=1

F (xi) (2.61)

即P (X1 6 x1, X2 6 x2, · · · , Xn 6 xn) =n∏

i=1

P (Xi 6 xi) (2.62)

Page 64: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

64 R 语言统计学基础

则称 X1, X2, · · · , Xn 相互独立, 否则称 X1, X2, · · · , Xn 不独立. 针对离散和连续的情形, 这

就是指对任意的 n 个取值 x1, x2, · · · , xn(离散场合) 或任意的 n 个实数 x1, x2, · · · , xn, 均有

P (X1 = x1, X2 = x2, · · · , Xn = xn) =n∏

i=1

P (Xi = xi), 离散场合

f(x1, x2, · · · , xn) =n∏

i=1

fXi(xi), 连续场合

(2.63)

在最经常遇到的二维连续随机变量情形中, 随机变量 X 与 Y 相互独立实际就是指下

式成立

f(x, y) = fX(x)fY (y) (2.64)

式中: f(x, y) 为 (X, Y ) 的联合概率密度; fX(x) 和 fY (y) 分别为 X 和 Y 的概率密度.

2.7.3 条件分布

如同事件的概率有条件概率一样,随机变量的分布也有条件分布.对二维随机变量 (X, Y )

而言, 所谓 X 的条件分布(conditional ditribution),就是指在给定 Y 取某个固定值的条件下

X 的分布. 比如, 记 X 为人的体重, Y 为身高, 则 X 与 Y 应当存在一定的关系. 若固定身

高为 1.7m, 再去考察体重的分布, 将会与无此条件下的体重的分布存在很大区别. 这里仍分

离散和连续两种情形进行具体定义.

定义 2.29 (离散型随机变量的条件分布) 设二维随机变量 (X, Y ) 的联合分布列为

pij = P (X = xi, Y = yj), i = 1, 2, · · · , j = 1, 2, · · ·

对一切使 P (Y = yj) = p·j =∞∑

i=1

pij > 0 的 yj , 称

pi|j = P (X = xi|Y = yj) =P (X = xi, Y = yj)

P (Y = yj)=

pij

p·j, i = 1, 2, · · · (2.65)

为给定 Y = yj 条件下的 X 的条件分布. 给定 X = xi 条件下的 Y 的条件分布可类似写出.

定义 2.30 (连续型随机变量的条件分布) 设二维随机变量 (X, Y ) 的联合密度函数为

f(x, y), 边际密度函数分别为 fX(x), fY (y), 则对任意使 fX(x) > 0 的 x, 给定 X = x 条件下

的 Y 的条件分布函数和条件密度函数分别为

F (y|x) =∫y

−∞

f(x, v)fX(x)

dv (2.66)

f(y|x) =f(x, y)fX(x)

(2.67)

请注意条件分布的定义与条件概率在形式上的相似性.

在了解条件分布密度函数的概念后, 可进一步给出连续型随机变量的全概公式和贝叶

斯公式, 这是贝叶斯统计学的核心概念.

Page 65: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 65

定义 2.31 (连续场合的全概公式) 全概公式的密度函数形式为

fY (y) =∫∞−∞

fX(x)f(y|x) dx; (2.68)

fX(x) =∫∞−∞

fY (y)f(x|y) dy (2.69)

定义 2.32 (连续场合的贝叶斯公式) 贝叶斯公式的密度函数形式为

f(y|x) =fY (y)f(x|y)∫∞

−∞fY (y)f(x|y) dy

(2.70)

f(x|y) 的形式也可类似写出.

仍请注意连续场合的贝叶斯公式与事件形式的贝叶斯公式在本质上的一致性.

定义 2.33 (条件期望) 条件分布的数学期望称为条件数学期望(conditional expected

value), 定义如下:

E(Y |X = x) =

j

P (Y = yj |X = x), (X, Y ) 为离散型随机变量;

∫∞−∞

yf(y|x) dy, (X, Y ) 为连续型随机变量

条件期望 E(X|Y = y) 可类似写出.

条件期望 E(Y |X = x)是 x的函数. 对 x取不同的值,条件期望 E(Y |X = x)也有发生

变化, 为此可记为

g(x) = E(Y |X = x)

同时, 条件期望也仍然是一个随机变量.

现代统计学中的一大类回归方法, 就是关于条件期望的预测方法, 这将在后面的学习中

遇到.

正如事件的独立性可以通过条件概率与无条件概率相等这一原则来判定一样, 随机变

量的独立性也可通过条件分布来定义. 这种定义在 (X, Y ) 为二维连续型随机变量的场合尤

为适用. 此时若有

fY |X(y|x) = fY (y) 或 fX|Y (x|y) = fX(x) (2.71)

则称随机变量 X 与 Y 是相互独立的. 这与前面的随机变量的独立性定义等价.

这里要特别指出,如果 X ∼ N(µ1, σ1), Y ∼ N(µ2, σ2),且 X, Y 相互独立,则有 X +Y ∼N(µ1 + µ2,

√σ2

1 + σ22). 此结论可推广到有限个独立正态变量之和的场合. 这称为正态分布

的可加性. 但如果 X, Y 不相互独立, 则此结论不成立. 例如, 设 X ∼ N(0, 1), Y = −X, 则

Y ∼ N(0, 1), 但 X + Y ≡ 0. 这是一个退化分布, 取值恒为 0. 即使是两个非独立的正态随

机变量之和仍为正态分布, 其方差也不是 Var(X) + Var(Y ) = σ21 + σ2

2 , 而是 Var(X + Y ) =

Var(X) + Var(Y ) + 2Cov(X, Y ), 其中 Cov(X, Y ) 的定义接下来就将介绍. 这一点应当明确.

Page 66: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

66 R 语言统计学基础

同时, 又因为有 aX ∼ N(aµ, |a|σ), 其中 a 为不为零的实数, 因此有另一重要结论: 任意

n 个相互独立的正态随机变量的线性组合仍服从正态分布, 即

a1X1 + a2X2 + · · ·+ anXn ∼ N(µ0, σ0) (2.72)

其中,

µ0 =n∑

i=1

aiµi, σ20 =

n∑

i=1

a2i σ

2i (2.73)

例如, 设 X ∼ N(3, 1), Y ∼ N(−2, 2), 且 X, Y 相互独立, 则 2X − 3Y − 10 ∼ N(2,√

40).

2.7.4 协方差与线性相关系数

多维随机变量的特征数除了期望和方差外, 还涉及协方差和相关系数这两个关键概念.

在未来的统计学学习中, 它们将扮演重要的角色, 这里作一简单说明.

类似于一维随机变量函数的数学期望, 对二维随机变量函数的数学期望有如下定理存

在 (n 维随机变量的情形与此类似).

定理 2.8 (二维随机变量函数的数学期望) 若二维随机变量为 (X, Y ), 则 Z = g(X, Y )

的期望 (假设存在) 为

E[g(X, Y )] =

i

j

P (X = xi, Y = yi), 离散场合;

∫∞−∞

g(x, y)f(x, y) dxdy, 连续场合

(2.74)

前面曾经列出过随机变量期望和方差的部分性质,这里再做一些补充. 在X1, X2, · · · , Xn

相互独立的前提下, 有

E(X1X2 · · ·Xn) = E(X1)E(X2) · · ·E(Xn);

Var(X1 ±X2 ± · · · ±Xn) = Var(X1) + Var(X2) + · · ·+ Var(Xn)

但无论 X1, X2, · · · , Xn 是否独立, 总有

E(X1 ±X2 ± · · · ±Xn) = E(X1)± E(X2)± · · · ± E(Xn)

成立. 但对于方差来说却并非如此. 两个随机变量加减之后的方差, 在不独立时的情形比期

望复杂. 这涉及协方差的概念.

定义 2.34 (协方差与相关系数) 若 E[(X − E(X))(Y − E(Y ))] 存在, 则称

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] (2.75)

为随机变量 X 与 Y 的协方差(covariance). 同时称

ρXY =Cov(X, Y )√

Var(X)√

Var(Y )=

Cov(X, Y )σXσY

(2.76)

为 X 与 Y 的线性相关系数(coefficient of linear correlation), 通常简称相关系数并简记为 ρ.

Page 67: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 67

协方差实际上是 X 的取值与其期望的偏差 “X −E(X)”, 以及 Y 的取值与其期望的偏

差 “Y − E(Y )” 的乘积的期望. 协方差的一个重要作用是用它来定义两个随机变量之间的

线性相关程度:

(1) 当 X −E(X) 与 Y −E(Y ) 同时增加或同时减少 (即 X 与 Y 同时增加或同时减少,

因为 E(X) 与 E(Y ) 都是常数) 时, 有 Cov(X, Y ) > 0, 即 ρ > 0, 此时称 X 与 Y 之间存在正

线性相关(positive linear correlation);

(2) 当 X − E(X) 与 Y − E(Y ) 一个增加而另一个减少 (即 X 与 Y 一个增加而另一个

减少) 时, 有 Cov(X, Y ) < 0, 即 ρ < 0, 此时称 X 与 Y 之间存在负线性相关(negative linear

correlation);

(3) 当 Cov(X, Y ) = 0 时, 称 X 与 Y 之间不存在线性相关(no linear correlation), 这并

不必然意味着 X 与 Y 之间不存在任何关系, 而只是意味着两者之间不存在线性关系.

协方差具有以下基本性质:

(1) Cov(X, Y ) = Cov(Y, X);

(2) Cov(X, Y ) = E(XY )− E(X)E(Y );

(3) Cov(X, X) = Var(X);

(4) 若 X 与 Y 相互独立, 则 Cov(X, Y ) = 0, 反之不然;

(5) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z);

(6) 对任意常数 a, 有 Cov(X, a) = 0;

(7) 对任意常数 a, b, 有 Cov(aX, bY ) = abCov(X, Y );

(8) 对任意二维随机变量 (X, Y ), 有 Var(X ± Y ) = Var(X) + Var(Y )± 2Cov(X, Y ).

多数性质的证明都很简单, 这里略去, 仅证性质 (2), (4) 和 (8).

证 先证性质 (8). 这里仅证 Var(X + Y ) 的情形, Var(X − Y ) 的情形可类似证出. 由

方差的定义和期望与方差的相关性质, 有

Var(X + Y ) = E[(X + Y )− E(X + Y )]2 = E[(X − E(X)) + (Y − E(Y ))]2

= E[(X − E(X))2 + 2(X − E(X))(Y − E(Y )) + (Y − E(Y ))2]

= E[X − E(X)]2 + E[Y − E(Y )]2 + 2E[(X − E(X))(Y − E(Y ))]

= Var(X) + Var(Y ) + 2Cov(X, Y )

再证性质 (2).

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]

= E[XY −XE(Y )− Y E(X) + E(X)E(Y )]

= E(XY )− E(X)E(Y )− E(Y )E(X) + E(X)E(Y )

= E(XY )− E(X)E(Y )

根据性质 (2), 若 X 与 Y 相互独立, 则有 E(XY ) = E(X)E(Y ), 此时 Cov(X, Y ) = 0,

此即性质 (4), 同时由此也可得知只有在 X 与 Y 相互独立时, 才有 Var(X ± Y ) = Var(X) +

Var(Y ) 这一简便公式. 了解这一点非常关键.

Page 68: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

68 R 语言统计学基础

性质 (2) 中提到的 “反之不然”, 是指从 X 与 Y 的协方差为 0 不能推出 X 与 Y 相互

独立. 这里不去做数学上的推导, 仅举出一个反例, 以便理解.

例 2.29 二维随机变量 (X, Y ) 分别以 1/4 的概率取以下四个值:

(1, 0), (0, 1), (−1, 0), (0,−1)

求其协方差, 并讨论 X 与 Y 之间的独立性.

解 X 与 Y 的边缘分布均关于 0 对称, 且易知 E(X) = E(Y ) = 0; 同时, 从 (X, Y ) 取

值及取值概率中容易看出 XY ≡ 0, 故 E(XY ) = 0. 由协方差的性质即可知 Cov(X, Y ) =

E(XY )− E(X)E(Y ) = 0, 即 X 与 Y 不存在线性相关.

但是, X 与 Y 之间并不独立. 实际上, 当 X = 0 时, Y 必定取到非零值; 而 X 取到非

零值时, Y 必为零. 这说明 X 与 Y 之间并不是 “没有关系”, 而存在特殊的限定关系, 故两

者之间并不是独立的. 当然, 也可直接从独立性的定义入手去证明, 但稍显烦琐.

前面从协方差的角度定义了随机变量之间的线性相关.在实际应用中, 我们更多是从线

性相关系数本身来刻画线性相关. 可以证明线性相关系数的性质如下:

(1) −1 6 ρXY 6 1;

(2) ρXY 与 Cov(X, Y ) 同号, 或同时为 0;

(3) ρXY = ±1 的充要条件是 X 与 Y 之间 “存在线性关系”, 即存在实数 a(a 6= 0) 与 b,

使得 Y = aX + b;

(4) 若 ρXY = 1, 则 Y = aX + b 中的 a > 0, 即 X 与 Y 的所有取值落在一条斜率为正

的直线上;

(5) 若 ρXY = −1, 则 Y = aX + b 中的 a < 0, 即 X 与 Y 的所有取值落在一条斜率为

负的直线上;

(6) 若 ρXY = 0, 这等价于 Cov(X, Y ) = 0, X 与 Y 之间不存在线性相关, 但这并不排除

它们之间存在别的相关性, 如三角函数形式的相关等.

(7) 若 ρXY > 0, 则 X 与 Y 之间存在正线性相关, ρXY 越接近 1, 正线性相关性越强,

体现在图像上, 即 X 与 Y 之间的取值越发紧密地围绕在一条斜率为正的直线周围;

(8) 若 ρXY < 0, 则 X 与 Y 之间存在负线性相关, ρXY 越接近 −1, 负线性相关性越强,

体现在图像上, 即 X 与 Y 之间的取值越发紧密地围绕在一条斜率为负的直线周围;

(9)对X 与 Y 做任意线性变换之后形成的两个新随机变量 U = aX+b和 V = cY +d(其

中 a, c 6= 0) 的线性相关系数 ρUV , 在 a, c 同号时仍等于 ρXY , 在 a, c 异号时等于 −ρXY .

性质 (1) 的证明通常涉及 Schwarz 不等式, 即

[Cov(X, Y )]2 6 Var(X)Var(Y ) (2.77)

这里不去展开, 仅记住线性相关系数的取值范围即可. 性质 (3) 中的 “存在线性关系” 打

了引号, 是因为这并不是最严格的说法, 实际上说成 “几乎处处存在线性关系”, 即 P (Y =

aX + b) = 1 更好. 所谓 “处处存在线性关系”, 是指 X 与 Y 可以在某些地方不存在线性

关系, 但这些情形的概率之和为 0. 在实际应用中, P (Y = aX + b) = 1 多可直接理解为

Y = aX + b.

Page 69: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 69

性质 (6)值得特别注意,线性相关系数等于 0,并不意味着两个随机变量之间不存在 “关

系”. 实际上, 它们之间可以存在很强的关系, 如严格的函数关系, 而只是不存在线性关系而

已. 以下是一个很好的例子.

例 2.30 设随机变量 X ∼ U(−0.5, 0.5), 而 Y = cos X. 试求 X 与 Y 之间的协方差及

相关系数.

解 显然 E(X) = 0, 故根据协方差的定义

Cov(X, Y ) = E(XY )− E(X)E(Y ) = E(XY ) = E(X cos X) =∫0.5

−0.5

x cos xdx = 0

最后一步成立是利用了奇函数在关于原点对称的区间上积分为 0 的性质.

因此, ρXY = 0, 即 X 与 Y 之间不存在线性相关关系,但这并不意味着它们之间没有关

系. 传统上多数教材都将线性相关系数简称为相关系数, 这一说法具有很强的误导性, 字面

上容易让人误以为 “不相关” 就是 “没有关系”. 我以为宜抛弃这一容易造成误解的简称, 使

用意思更加明确的全称.

性质 (9) 将作为习题要求大家证明.

还需着重指出, 不存在线性相关并不等于不独立. 从独立可以推出不存在线性相关, 反

之不然. 也就是说, 独立是个强条件, 而不相关则是弱条件. 从独立推出不相关的情形, 在前

面讨论协方差的性质时实际上已经有了证明. 当然, 在一些特殊的场合下, 不存在线性相关

可以等同于独立. 例如, 在二维正态分布的情形中, 两者就是等价的. 但这只能作为特例, 而

不能作为普遍结论.

线性相关系数又称标准化了的协方差. 所谓随机变量的标准化, 是指对任一随机变量

X 做如下变化:

X∗ =X − E(X)√

Var(X)(2.78)

此时可证得有 E(X∗ = 0),Var(X∗ = 1). 若对 Y 也实施上述标准化过程, 并求 Cov(X∗, Y ∗),

可有

Cov(X∗, Y ∗) = Cov(

X − E(X)σX

,Y − E(Y )

σY

)

= E

(X − E(X)

σX· Y − E(Y )

σY

)− E

(X − E(X)

σX

)E

(Y − E(Y )

σY

)

=E[(X − E(X))(Y − E(Y ))]

σXσY=

Cov(X, Y )σXσY

= ρXY

这正是将线性相关系数称为标准化了的协方差的理由. 线性相关系数是一个标准化而无量

纲的, 取值在 [−1, 1] 间的量, 这种性质使得它在判定 X 与 Y 的线性关系时, 可以脱离变量

取值单位的限制而体现出数学上本质的一面, 故它在实际中应用得比协方差要更广泛.

在中高级统计方法 (如结构方程模型) 的学习中, 经常会遇到协方差阵(covariance ma-

trix) 的概念, 它涉及线性代数的一般知识, 这里不再展开. 有需要者可自行参考相关教材.

Page 70: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

70 R 语言统计学基础

2.8 大数定律与中心极限定理

大数定律与中心极限定理是概率论中的重要定理, 在许多场合有着重要作用.

2.8.1 大数定律

第 1 章里曾简单地探讨过 “频率值稳定于概率值” 的说法. 这两个结论几近常识, 在试

验次数 n充分大(sufficiently large) 时可以通过简单观察得到. 当然, 这里的 “稳定于” 均不

能做简单的、微积分意义上的极限来理解. 这一点在第 1 章已经有过讨论. 那么, 究竟用什

么样的语言刻画会比较严格呢? 这正是大数定律所要具体阐述的内容.

这里引入如下情境. 若考虑的是某试验中事件 A 发生的概率 P (A) = p, 在多次重复试

验中, 记 Mn 为 n 次试验中 A 发生的频率, 其中

Mn =1n

n∑

i=1

Xi =X1 + X2 + · · ·+ Xn

n(2.79)

式中: Xi = 1 为事件 A 发生; Xi = 0 为事件 A 不发生. 此时显然有 E(Xi) = p. 那么, 当 n

充分大时, 频率 Mn 将是 p 的良好估计. 事实上, 我们有如下结论

定理 2.9 (弱大数定律) 设独立同分布(identically independent distribution) 的随机变

量序列 X1, X2, · · · 的公共分布的均值为 µ, 标准差为 σ. 定义样本均值

Mn =1n

n∑

i=1

Xi =X1 + X2 + · · ·+ Xn

n(2.80)

则对任意的 ε > 0, 有

limn→∞

P (|Mn − µ| > ε) = 0 (2.81)

这就是大数定律(law of large numbers, LLN).

准确地说, 上述定理应当称为 “弱大数定律”(weak law of large numbers), 其更严格的形

态称为 “强大数定律”(stong law of large numbers), 其内容如下:

定理 2.10 (强大数定律) 设独立同分布的随机变量序列 X1, X2, · · · 的公共分布的均值为 µ, 标准差为 σ. 定义样本均值

Mn =1n

n∑

i=1

Xi =X1 + X2 + · · ·+ Xn

n(2.82)

则 Mn 以概率 1 收敛于 µ, 即

P(

limn→∞

Mn = µ)

= 1 (2.83)

这就是强大数定律(stong law of large numbers).

对初学者而言, 弱大数定律与强大数定律之间的差别是微妙的, 但暂不必深究. 其实用

意义在于, 强大数定律以数学形式保证了如下直观论断: 在重复独立的试验序列中, 可以肯

定地说 (概率为 1), 事件 A 长时间出现的频率就是概率 P (A).

Page 71: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 71

大数定律之所以称为 “定律”(law) 而不是 “定理”(theorem), 并不是因为它没有得到证

明, 而是因为它很早已经为人们从经验中熟知并付诸应用, 尽管在应用时并没有进行数学上

的严格证明. 当然,从现在的视角看,称为 “大数定理”也是合适的,这也是许多教材的叫法.

简言之, 抛却数学形式, 大数定律的内容就是如下两句话: 频率值稳定于概率值, 平均

值稳定于期望值. 再次提醒要准确地理解 “稳定于” 的意思. 弱大数定律和强大数定律的证

明这里略去, 理解内容即可.

2.8.2 中心极限定理

前面曾提出了问题: “若 X1, X2, · · · , Xn 为一系列的随机变量, 那么 Sn = X1 + X2 +

· · · + Xn 的极限分布为何?” 中心极限定理(central limit theorem, CLT) 回答的就是这一问

题:在一定条件下,随机变量和的极限分布通常为正态分布.而正态分布的性质清晰明确,是

最经常使用的连续型分布, 这能够为概率运算提供极大方便. 中心极限定理有多种形式, 这

里不去具体论述和证明, 仅给出一些常用的中心极限定理的条件与结论.

定理 2.11 (中心极限定理) 设 X1, X2, · · · , Xn 是独立同分布的随机变量序列, E(Xi) =

µ,Var(Xi) = σ2, i = 1, 2, · · · , n. 记

Zn =X1 + X2 + · · ·+ Xn − nµ√

显然 E(Zn) = 0,Var(Zn) = 1. 可证明 Zn 的分布函数的极限分布为标准正态分布函数, 即

对任意 x 有

limn→∞

P (Zn 6 x) =1√2π

∫x

−∞e−

t22 dt

也即当 n 充分大时, 近似地有 Zn ∼ N(0, 1).

从上面的定理中可以看出, Zn 其实是 Sn = X1 + X2 + · · ·+ Xn 的标准化过程, 故上述

定理也相当于是说, 当 n 充分大时, 近似地有 Sn ∼ N(nµ,√

nσ). 另外, 若记 X = Sn/n, 则

自然有当 n 充分大时, 近似地有 X ∼ N

(µ,

σ√n

)的结论; 也就是说, 大量独立同分布的随

机变量的均值近似服从正态分布. 这一形式的结论在后面的统计学中应用最为广泛.

实际中还有一个应用广泛的中心极限定理形式,常称为 “棣莫弗 -拉普拉斯 (De Moivre–

Laplace) 中心极限定理”, 它是概率论历史上的第一个中心极限定理, 专门针对二项分布, 也

称为 “二项分布的正态近似”(normal approximation to binomial ditribution). 它可以为是定

理 2.11 一种特殊情况.

定理 2.12 (棣莫弗 – 拉普拉斯中心极限定理) 设 X1, X2, · · · , Xn 是独立同分布的随

机变量序列, Xi 的分布如下:

Xi 0 1

P (Xi) 1− p p

即 Xi 为二点分布.

记 Sn = X1 + X2 + · · · + Xn, 显然 Sn 表示这 n 重伯努利试验中的指定事件出现的次

Page 72: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

72 R 语言统计学基础

数. 则对任意 x, 有

limn→∞

P

(Sn − np√np(1− p)

6 x

)=

1√2π

∫x

−∞e−

t22 dt

也即当 n 充分大时, 近似地有 Sn ∼ N [np,√

np(1− p)]. 注意到 np 和 np(1− p) 正好分别是

二项分布 B(n, p) 的期望与方差.

中心极限定理是应用非常具有一般性的定理,只要随机变量序列独立同分布,期望存在,

方差有限, 就可以得出相应结果, 而对 Xi 的分布没有任何其他要求. Xi 可以是离散的、连

续的, 或是混合的.

实际上还有更强形式的中心极限定理. 定理 2.11 要求随机变量序列独立同分布, 实际

中独立性较好满足, 同分布则是非典型情况. 但仍可证得, 当上述的随机变量和 Sn 中的各

项 (Xi) 中不存在起突出作用的项, 即各项在概率意义下 “均匀地小” 时, Sn 的极限分布仍

是正态分布.例如,在实际生产中,齿轮的直径误差受到一系列随机因素的影响,如钢材的成

分、车间的湿度、工作电压、工人的技术、机器的装备与磨损等. 这些因素非常众多,每个因

素的作用是随机的,可正可负、可大可小、时有时无,它们之间可以认为相互独立,但服从不

同分布. 但一般而言没有哪个因素在误差形成中占据绝对主导的地位, 故最终仍可认为, 直

径的误差近似服从正态分布. 生活中的许多例子, 如身高、体重、镜片磨损度、参与人数众

多的考试成绩、个体的某些心理状态都可以认为存在类似的多种 “作用均匀地小的”影响因

素, 因此都可近似认为服从正态分布. 这些也已在实际调查中得到了强有力的验证.

大数定律揭示了大量随机变量的平均结果,但没有涉及随机变量分布的问题.而中心极

限定理说明的是在一定条件下, 大量独立随机变量的均值的极限分布是正态分布.正是基于

这种实际性质,中心极限定理取得了概率论定理中的核心地位. 这也说明正态分布在实际应

用中的重要性. 中心极限定理经由 Laplace 等古典及近代数学家的努力, 于 20 世纪初获得

了较为严格的形式, 并由数学家 George Polya (1887—1985,著有《怎样解题》等)于 1920年

命名为 “Central Limit Theorem”, 以说明它在初等概率论中的核心地位.

在实际应用中, 对 “n到底取多大才能算充分大”的回答并不统一.泛泛而言, 至少要求

n > 30, 或更严格一些 n > 50. 然而这仍需视实际情形而定, 这只是一个简便的标准. 总之,

n 越大, 近似的效果越好. 而对于二项分布的正态近似, 除了 n 的值之外, 对 p 的取值也有

一定要求. 若 p 较接近 0.5, 则近似效果较好, 对 n 的要求不是很高; 若 p 接近 0 或 1, 则

要求有更大的 n 才能达到相当的近似精度. 此时通常使用 np > 10, n(1− p) > 10 作为二项

分布的正态近似的联合判定的标准. 此时单纯考虑 n > 30 是不够的, 例如当 n = 100, 但

p = 0.000 001 时, 近似的效果仍然不好. 故此时一般不再检验 n > 30 这一条件.

随着计算机软件的兴起,这种正态近似的实用性正在逐渐减弱: 若直接使用二项分布能

够取得更精确的结果, 而软件又能方便快捷地给出计算结果, 为什么还要做正态近似呢? 当

然, 仍有一些情况, 使用中心极限定理和正态近似是比较方便的. 这里给出几例.

例 2.31 一学校有 1 000名学生.每天中午下课后,每人都以 80%的概率去食堂用餐,

问食堂至少应设多少个座位, 才能以 95% 的概率保证同时去用餐的同学都有座位?

解 设 X=“中午同时去食堂用餐的人数”, 又设食堂至少有 a 个座位才能满足题设要

求. 假设每个人中午是否去食堂是相互独立, 故 X ∼ B(1 000, 0.8). 根据题意, 应求出满足

Page 73: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 73

P (X 6 a) > 0.95 中的 a. 如果直接用二项分布, 除非利用软件进行编程, 否则比较难求. 但

利用中心极限定理, 转化为正态分布后则较为容易.

检查条件, 此时 1 000× 0.8 = 800 > 10, 1 000× (1− 0.8) = 200 > 10, 故可对二项分布做

正态近似,即近似有 X ∼ N(800, 12.65),其中 12.65是 1 000× 0.8× 0.2的算术平方根.于是,

P (X 6 a) = P

(Z 6 a− 800

12.65

)> 0.95

由 R 命令 qnorm(0.95) 得到对应标准分为 1.645, 故有

a− 80012.65

> 1.645

解得 a > 820.809 3. 故取 a = 821 即可满足要求.

注: 此题在做完正态近似后, 可直接用 R 命令

qnorm(0.95, 800, sqrt(1000*0.8*0.2))

得出答案 820.805 9. 从中也可看到软件的便利性.

实际上, 既然已有了可以直接计算二项分布相关概率的软件,完全可以绕过中心极限定

理, 而直接采用软件命令的方式对此题求解, 这留给大家作为课后思考题. 这种编程化的思

路, 也许对以后的统计学习和建模来说是更值得尝试的.

例 2.32 独立重复地测量 n 次某物体的长度. 设其长度真值为 µ, 各次测量结果

Xi ∼ N(µ, 0.2). 记 X 为 n 次测量的算术平均值, 为保证有 95% 的把握使平均值与实际值

µ 之间的差异小于 0.1, 问至少需要测量多少次?

解 n次测量结果之间是独立同分布的,故由中心极限定理知近似地有 X ∼ N

(µ,

0.2√n

).

题意要求解得满足下列条件的 n 的最小值为:

P (∣∣X − µ

∣∣ < 0.1) > 0.95

即 P (µ− 0.1 < X < µ + 0.1) > 0.95, 或

2P (X < µ− 0.1) 6 0.05

P

Z <

µ− 0.1− µ0.2√

n

6 0.025

P

(Z < −

√n

2

)6 0.025

由 R 语言命令 qnorm(0.025) 得对应标准分为 −1.959 964 ≈ −1.96, 故

−√

n

26 −1.96 (2.84)

解得 n > 15.366 4. 此时取 n = 16即可有 95%的把握使平均值与实际值 µ之间的差异小于

0.1. 注意类似此类的问题中的整数 n 总是向上取整, 而不是四舍五入.

Page 74: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

74 R 语言统计学基础

例 2.33 柴教授受某公司委托调查某电视节目在天津的收视率 p, 他用所有调查对象

中收看此节目的频率 p 作为 p 的估计. 现要有 90% 的把握使得 p 与 p 之间的差异不大于

5%, 问至少需要有多大的样本量?

解 设共需 n 个调查对象. 记

Xi =

1, 若第 i 个调查对象收看此电视节目;

0, 若第 i 个调查对象不看此电视节目

则 Xi 独立同分布, 即 P (Xi = 1) = p, P (Xi = 0) = 1− p, i = 1, 2, · · · , n.

再记 n个调查对象中,收看此节目的人数为 Y . 显然 Y =n∑

i=1

Xi ∼ B(n, p),且 p = Y/n.

若 n 充分地大时, p 可以作为 p 的近似估计. 而当 np > 10, n(1 − p) > 10 时, 又可近似有

Y ∼ N(np,√

np(1− p)). 而 p 只是对 Y 做了一个简单的线性变换, 故仍近似有

p =Y

n∼ N

(p,

√p(1− p)

n

)

于是

P (|p− p| 6 0.05) > 0.90

由于 p 关于 p 对称, 故上式等价于

P (p 6 p− 0.05) 6 0.05

P

z 6 p− 0.05− p√

p(1− p)n

6 0.05

P

z 6 −0.05√

p(1− p)n

6 0.05

由 R 命令 qnorm(0.05) 得对应标准分为 −1.645, 故

−0.05√p(1− p)

n

6 −1.645

整理有

n > p(1− p)1.6452

0.052

根据简单的代数知识可知 p(1 − p) 6 0.25(0 < p < 1), 代入上式整理可得 n > 270.602 5, 即

至少需要调查 271 人方可满足要求. 注意此题中的 p 应理解为一未知而待估计的常数.

总结起来, 利用中心极限定理可得到的主要结论如下, 应当记住:

Page 75: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 75

若 X1, X2, · · · , Xn 独立同分布, 其共同分布的期望 (µ) 与方差 (σ) 均存在, 记 X 为这

n 个随机变量的均值, Sn 为这 n 个随机变量的和, 则当 n 充分大时, 近似有

(1) X ∼ N

(µ,

σ√n

);

(2) Sn ∼ N(nµ,√

nσ);

(3) Zn =Sn − nµ√

nσ∼ N(0, 1);

(3) 特别地, 若上述的各 Xi(i = 1, 2, · · · , n) 独立同分布于二点分布, 且 P (Xi = 1) =

p, P (Xi = 0) = 1− p, 记 p = X =Sn

n, X = Sn =

n∑

i=1

Xi, 则当 np > 10, n(1− p) > 10 时, 近

似有 p ∼ N

[p,

√p(1− p)

n

], X = Sn ∼ N [np,

√np(1− p)].

上述结果都是中心极限定理的等价描述, 可适用于不同的情境. 仍要注意上述结果在 n 有

限 (无论多大) 时只是近似结果.

2.9 本 章 习 题

1. 设随机变量 X ∼ B(2, p), Y ∼ B(4, p), 且 P (X > 1) = 8/9. 求 P (Y > 2).

2. 设随机变量 X ∼ P (λ), 且 P (X = 1) = P (X = 2), 求 P (X = 4) .

3. 一复杂系统由 100 个相互独立起作用的部件所组成, 在整个运行期间每个部件损坏的

概率为 0.10,为了使整个系统起作用,至少必须有 85个部件正常工作,求整个系统起作

用的概率.

4. 某制药公司在广告中宣称, 该厂生产的某种药品对于医治一种肿瘤的治愈率为 0.85, 医

院检验员随机抽查 100 个服用此药的病人, 如果其中多于 80 人治愈, 就接受这一断言,

否则就拒绝这一断言. (1) 若实际上此药品对这种疾病的治愈率是 0.8. 问接受这一宣

传的概率是多少?(2) 若实际上此药品对这种疾病的治愈率是 0.75, 问接受这一宣传的

概率是多少?

5. 柴教授周末和两位朋友一起去喝咖啡, 他们决定以抛硬币的方式决定谁来埋单. 每人

抛一个硬币, 如果有一个人的结果与另外两个人的结果不同,则由抛出不同结果的人买

单; 如果三人的结果相同, 则继续抛下去, 直到出现有人买单为止. 求以下事件的概率:

(1) 正好进行 3 轮, 即有人买单; (2) 进行了 4 轮以上 (不包括 4 轮) 才有人买单.

6. 上初中时, 柴教授的家离学校 2km. 如果天气好, 他就跑步去上学, 跑步速度为每小时

5km; 如果天气不好, 他就骑自行车去上学, 时速 20km. 设在他上学期间出现好天气的

概率为 0.6, 求其从家到学校的平均时间.

7. 设 X ∼ U(−1, 2). 记

Y =

−1, x < 0;

1, x > 0

求 Y 的分布列.

Page 76: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

76 R 语言统计学基础

8. 设 B 服从 (0,10) 上的均匀分布, 求方程 x2 + Bx + 1 = 0 有实根的概率.

9. 某仪器上装有 10 个独立工作的同型号电子元件, 其寿命 X(单位: h) 都服从同一指数

分布, 其密度函数为

f(x) =

1600

e−x

600 , x > 0;

0, 其他

求在最初使用的 200h内,至少有一个元件损坏的概率 (此题不得使用计算器或软件,结

果保留无理数或分数形式).

10. 某产品的寿命 X 服从指数分布 (单位: 年), 其平均寿命为 4 年. 生产该产品的厂家承

诺,若产品在一年之内损坏,则可免费调换.若厂家每售出一台可获利 100元,而调换一

台产品的成本为 300 元, 试求每台设备的平均利润.

11. 某公务员岗位有 10 000 人报考. 假定考生成绩服从正态分布, 且已知 90 分以上有 359

人, 60 分以下有 1 151 人. 最后按成绩从高到低依次录用 2 500 人, 试问被录用者中的

最低分为多少?

12. 设随机变量 X ∼ N(0, σ). 若 P (|X| > k) = 0.1, 试求 P (X < k).

13. 设随机变量 X ∼ N(µ, σ). 若 σ 不断变大, 请问 P (|X − µ| < σ) 的变化趋势?

14. 设随机变量 X 服从区间 (1,2) 上均匀分布, 求 Y = e2X 的概率密度 fY (y).

15. 设随机变量 X 的分布函数为

FX(x) =

0, x < 0;

1− e−x5 , 0 6 x < 2;

1, x > 2

求随机变量 Y = eX 的分布函数, 并判断 Y 是否为连续型随机变量.

16. 设连续型随机变量 X 的分布函数为

F (x) =

0, x < −a(a > 0);

A + B arcsinx

a, −a 6 x < a;

1, x > a

(1) 求常数 A 和 B.

(2) 求 X 的密度函数 f(x).

17. 已知离散型随机变量 X 的分布律为

P (X = n) =23n

, n = 1, 2, · · ·

求 Y = 1 + (−1)X 的分布律.

18. 设随机变量 X ∼ U(1, 2), 求 Y = e2X 的概率密度函数 fY (y).

19. 设随机变量 X 与 Y 独立同分布, 且 E(X) = µ,Var(X) = σ2. 求 E(X − Y )2 与

Var(X − Y ).

Page 77: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 77

20. 柴教授现在开车去上课. 从家到大学总共要经过 5 个红绿灯口, 其中有 3 个小路口和 2

个大路口. 每个大路口的等待时间 (单位: min) 都服从 N(3, 3) 分布, 每个小路口的等

待时间都服从 N(1, 2) 分布, 假定每个路口的等待时间是相互独立的. 求柴教授上班过

程中路口等候时间的期望与标准差.

21. 设在区间 (0, 1) 上随机地取 n 个点, 求相距最远的两个点之间的距离的期望.

22. 柴教授组织了一个由 n个学生参加的联谊会,联谊会的 “入场费”为每个学生自己创作

的一个小礼物, 且每人的礼物不得相同. 在联谊过程中, 每人先把礼物放在一个不透明

的盒子中并由柴教授打乱顺序,然后再让每人从中随机抽取一份礼物带走. 求抽中自己

所创作礼物的学生人数的期望 (柴教授本人不参与抽取).

23. 袋中有 n 张卡片, 记号码为 1, 2, · · · , n. 从中有放回地任取 k 张卡片, 求所得号码之和

的数学期望与方差. 此题可能会用到如下求和公式:

n∑

k=1

k2 = 12 + 22 + 32 + · · ·+ n2 =16n(n + 1)(2n + 1)

24. 设 X 与 Y 独立同分布于参数为 λ 的泊松分布. 令 U = 2X + Y, V = 2X − Y , 求 ρUV .

25. 已知随机变量 X 与 Y 的线性相关系数为 ρ. 求 U = aX + b 与 V = cY + d 之间的线

性相关系数, 其中 a, c 6= 0.

26. 将一枚均匀的硬币抛 n 次. 以 H 和 T 表示 Head 和 Tail 出现的次数. 求 H 和 T 的协

方差和线性相关系数.

27. 设某生产线上组装每件产品的时间服从指数分布,平均需要 10 min,且各产品的组装时

间相互独立.

(1) 试求组装 100 件产品需要 10 h∼15 h 的概率;

(2) 保证有 95% 的可能性, 问 15 h 内最多可以组装多少件产品?

28. 设津南校区的学生公寓共装有功率为 2 kW 的空调 1 000 台. 若整个夏天期间空调的

同时使用率为 80%, 需要有多少 kW 的电力, 才能以 99% 的概率保证能够有足够的电

力使用空调?(结果保留到整数位)

29. 为确定某大城市中的烟民比例 p, 任意调查其中 n 个市民, 记其中的吸烟人数为 m, 问

n 至少多大才能保证 m/n 与 p 的差异小于 0.01 的概率大于 95%.

30. 柴教授总担心他的学生会靠瞎蒙来做试卷中的选择题.这学期的期末考试中, 他总共出

了 50 道 5 选 1 的选择题. 柴教授假设学生总在随机蒙题, 但如果蒙对的题数超过一个

临界值 (critical value),就转而认为该学生具备一定的真实水平. 具体而言,他需要确定

随机蒙题而答对 a 道题的概率小于等于 5%, 才会认为学生具备一定真实水平. 请问学

生至少得会做多少道题, 才能让柴教授做出这一判定?

31. 某非负连续型随机变量 X 具有分布函数 F (x) 和密度函数 f(x). 现假设 X 为某种

东西的 “寿命”. 我们把危险率(hazard rate) 或失效率(failure rate) 记为 λ(t), 其定义

如下:

λ(t) =f(t)

1− F (t), t > 0 (2.85)

Page 78: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

78 R 语言统计学基础

t 通常表示时间. 例如, 某电子元件已经使用了 t 小时, 则它不能再使用很短的一段时

间 dt 的概率为 P [X ∈ (t, t + dt)|X > t]. 由条件概率的公式, 有

P [X ∈ (t, t + dt)|X > t] =P [X ∈ (t, t + dt), X > t]

P (X > t)

=P [X ∈ (t, t + dt)]

P (X > t)

≈ f(t) dt

1− F (t)

式中: P [X ∈ (t, t + dt), X > t] 表示事件 X ∈ (t, t + dt) 与事件 X > t 同时发生的概率.

所以, 所谓的危险率 λ(t) 实际上表示了 “年龄” 为 t 的元件不能再继续使用的条件概

率强度 (conditional probability intensity).

(1) 由危险率函数的定义可知, 从 X 的分布函数可计算得出其危险率. 实际上, 反

过来由 X 的危险率函数也可唯一地确定 X 的分布函数. 试证明这一点.

(2)现假设 X ∼ Exp(λ). 利用指数分布的无记忆性,可知对 “年龄”为 t的元件,其

剩余的生存时间与新元件实际上是一样的. 因此, λ(t) 必是一个常数. 试用公式证明这

一点.

(3) 人们经常听到这样的说法: 某一年龄段上吸烟者的死亡率 (death rate) 是非吸

烟者的两倍. 实际上,这正是某一年龄段上吸烟者的危险率是非吸烟者的危险率的两倍

的意思. 请问这是否意味着对同年龄的非吸烟者来说,他们能够活到某一给定年龄的概

率是吸烟者活动该年龄的概率的两倍? 请具体说明理由.

(4) 设对年龄为 t(t > 40) 的男性吸烟者而言, 其患肺癌的危险率函数为

λ(t) = 0.000 25(t− 40)2 + 0.027, t > 40

假定一名 40岁的男烟民现在并未患有肺癌.利用前面的结果,分别求他能活到 60岁和

70 岁的概率.

32. 本章内容中曾出现这样两幅图.

第一幅图为不同参数的二项分布概率质量图 (图 2.9).

第二幅图为不同参数的指数分布密度函数图 (图 2.10).

试用 R 绘制这两幅图形.

Page 79: 1.1 基础知识回顾 - tup.tsinghua.edu.cn · R并未提供直接计算排列的命令, 但注意到排列与组合间的倍数关系, 这可转换为组合 与阶乘的乘积来求

第 2 章 随机变量 79

图 2.9 绘制不同参数的二项分布的概率质量图

图 2.10 绘制不同均值的指数分布密度函数曲线