基于离线签名识别的身份认证技术研究

基于离线签名识别的身份认证技术研究作者姓名：郜艳导师姓名：董兰芳王洵学科专业：计算机应用技术研究方向：图象处理

内容提要研究背景隐马尔可夫模型技术基于隐马尔可夫模型的签名认证算法适合于隐马尔可夫模型应用的离线签名特

征提取一个基于二维隐马尔可夫模型的中文离线

签名认证系统总结和下一步的工作

研究背景身份认证的应用和意义。传统的个人身份认证和基于生物特征识别的身份认证。基于离线签名识别的身份认证。离线签名鉴别的主要问题和难点本文的目标

隐马尔可夫模型技术基于隐马尔可夫模型的签名认证算法适合于隐马尔可夫模型应用的离线签名特征提取一个基于二维隐马尔可夫模型的中文离线签名认证系统总结和下一步的工作

研究背景 1

身份认证技术的应用和意义在日常生活中，身份认证存在于很多方面：出入单位、去银

行取款、登陆计算机系统或者进行网上交易时，都被要求证明自己的身份。

在信息安全领域，身份鉴定则是保证系统安全的必要前提。随着计算机和网络技术的高速发展，信息安全越来越显示出前所未有的重要性。在金融、国家安全、司法、电子商务、电子政务等应用领域，都需要进行准确的身份鉴定。比如某人是否有权进入安全系统、是否有权进行特定交易、是否是合法居民，为部门的计算机网络设置口令和密钥进行保护，等等。

研究背景 2

传统身份认证与基于生物特征识别的身份认证传统的身份认证方式：把身份认证问题转化为鉴定标识个人身份

的事物来实现的。“认物不认人” 。不方便。基于生物特征识别的身份认证方式：通过计算机利用人体所固有

的生理特征或行为特征进行个人身份认证。良好的防伪性能。“随身携带” 。安全、可靠、有效的新一代身份鉴定技术。

基于离线手写签名的身份认证也属于生物特征识别的范畴，不同的是，离线手写签名作为一种公认的身

份标志已经有很长的历史了，就像在我国广泛使用的印章一样。这种身份鉴别方式如今在社会生活中仍然扮演着重要的角色，比如在商务、

司法、金融、保险等众多领域中都大量使用到离线手写签名。在今后一段时间内，离线手写签名鉴别仍然会作为一种重要的身份鉴别手段在这些领域继续使用。因此对离线手写签名自动鉴别技术的研究具有很大的实用价值。

研究背景 3

离线签名识别要解决的问题和技术难点三类伪造签名：随机伪造签名，即其他书写者的真实签名；简单

伪造签名，即没有刻意模仿的签名或粗劣的模仿品；熟练的伪造签名，这一类伪造品在字形上与真实签名非常接近。

要解决的问题：识别出三类伪造签名首先是采集样本，然后是特征提取，根据样本所具有的独特和唯一的特征，用一种算法为其分配一个特征代码，并把这一代码存入数据库，最后当需要鉴定某个签名的真伪时，再用某种特征匹配算法将存入数据库的特征代码与被识别签名的特征相匹配，得出结论。

难点 1 ：缺乏建立在签名内在特征和合理的形状描述之上的有效的签名表示方法。

难点 2 ：缺乏足够的参考（训练）样本

研究背景 4

本文的研究目标针对离线手写签名中简单伪造签名简单伪造签名的自动鉴别，尤其是中文签名。

需要采用尽可能简单有效的特征和简洁高效的判别方法。

应用 HMM 技术进行离线签名鉴别

研究背景隐马尔可夫模型技术

HMM 的结构三大问题解决打分问题的前、后向算法解决训练问题的 Baum Welch 算法

基于隐马尔可夫模型的签名认证算法适合于隐马尔可夫模型应用的离线签名特征提取一个基于二维隐马尔可夫模型的中文离线签名认证系统总结和下一步的工作

隐马尔可夫模型技术 1

HMM 的结构：双重随机过程。观察值与状态不是一一对应的。站在观察者的角度，只能看到观察值，不能直接看到状态。“隐”。标准 N状态 HMM 可以用三元组表示： A ，状态转移概率矩阵 B ，观察概率矩阵，表示每个状态输出相应观察值的概率，为初始化概率分布。

三大问题打分：在给定模型参数的情况下，计算模型输出观察序列的概率。评估一个模型和给定观察输出序列的匹配程度。前后向算法

解释：给定观察序列，求在某种有意义的情况下最优的相关状态序列。寻求输出观察的最佳“解释”，它试图揭示模型的隐藏部分。 Viterbi 算法

训练：给定观察序列，寻找一组最优模型参数，使得模型对观察序列的输出概率最大。 Baum Welch 算法

),( BA

Markov链（ pi, A）随机过程（ B）

状态序列观察值序列


前向算法：前向变量给定模型的情况下，到时间 t 时输出观察序列为，并且时刻 t 的状态是的概率。初始化：递推：终止：

)|,...21()( iStqtOOOPit

tOOO ...21

iS

NiObi ii 1),()( 11

NjTtObaij tj

N

iijtt

1,11),(])([)( 1

11

N

iT iOP

1

)()|(


后向算法后向变量当时刻 t 的状态是的时候，从时刻 t ＋ 1 到序列结束的输出观察序列为的概率初始化：递推：

终止：

),|...()( 11 itTttt SqOOOPi

iS

Ttt OOO ...11

NiiT 1,1)(

Ni

TTt

jObaiN

jttjijt

1

1,...,2,1

)()()(1

11

N

i

iOP1

1 )()|(


Baum Welch 算法使用统计意义上用频率近似概率的方法时刻 1 时系统处在状态的频率（次数）

反复进行上面的过程，逐步改进模型参数，直到收敛，即不再明显增大，此时的就是 HMM 的最大相似性评估

的次数系统处于状态态

的次数转移到从状态

i

ji

ij

SSa

S

的次数状态的次数输出观察向量状态

j

vjkb k

j )(

i iS

)|( OP

)(1 i

1

1

1

1

)(

),(

T

tt

T

tt

i

ji

＝

1

1

1

1

)(

),(

T

tt

T

VOt

t

i

ji

kt

且＝

研究背景隐马尔可夫模型技术基于隐马尔可夫模型的签名认证算法

原理与工作流程 HMM输入数据准备 HMMHMM建模建模 ** 认证过程解决缺乏训练样本和系统识别率随时间下降的问题解决缺乏训练样本和系统识别率随时间下降的问题 **

适合于隐马尔可夫模型应用的离线签名特征提取一个基于二维隐马尔可夫模型的中文离线签名认证系统总结和下一步的工作

基于 HMM的离线签名认证算法 1

使用 HMM 进行签名认证包含两大步骤：训练，用由真实签名样本得到的观察序列训练模型参数，每

一个模型对应一个人的签名。识别，计算由要识别的签名得到的输入观察序列在特定模型

下出现的概率，由概率值判断待识别签名是否属于该模型所表示的签名者。

预处理

特征提取

HMM模型

打分

判决

签名样本

观察序列

训练


输入数据准备阶段预处理：

• 水平方向压缩。中文签名大都包含两个以上的汉字，汉字和汉字之间、水平的部首与部首之间往往都有空白。虽然这种空白在某种程度上能反映作者的书写风格，但也很不稳定。

• 统一质心位置。以压缩的签名图像的质心为中心，将签名统一正放在 400*200 象素的矩形区域内。

特征提取：• 对于一个使用离散 HMM 的签名认证系统而言，模型的输入信号必须是取自签名图像中的离散特征序列。我们把签名图像划分成若干列，从每一列中提取签名的局部特征，得到一个特征向量，然后把这些特征向量连在一起得到特征序列。

获得观察序列：• 将连续的浮点型矢量离散化，成为离散 HMM 需要的特征矢量类，每一类用一个符号表示。即向量量化。

• 每人一个码书。平方失真测度； LBG 算法；分裂法初始码书。


HMM建模 * 模型选择

Markov链的形状：• 从左到右；无跨越、两转移 • 状态数， n 通常在 2 到 4之间

观察符号 • 多维观察符号：多种特征结合使用时，这些特征之间在意义和度量

上不可。 HMM 的每个状态就对应多个观察符号。• 多维离散 HMM 的概念：它具有和普通 HMM相同的状态转移概率矩阵，不同的是，它使用多个观察概率矩阵，每个观察概率矩阵描述了一类观察符号的概率分布情况。比如一个二维离散 HMM ，就可以用四元组表示。),,,( 21 BBA

10/ln


HMM建模 * 模型训练

必须修改原先的 HMM 基本算法以处理多维观察符号的情况。假定每一类特征相互独立的情况下，多维 HMM 的输出概率可以用每一维信号的输出概率的乘积来计算，那么：

这里表示状态 j 下出现第个观察值中符号 k 的次数的期望

)](),2(),1([ ROOOO tttt

R

ltj

N

iijtt lObaij

11

11 ))(()()(

R

ltj

N

jtijt lObjai

11

11 ))(()()(

)(/)|()( )()( jcountjkcountkb llj

)|( )( jkcount l l


认证过程输出概率的归一化

决策方法

l

OpOp

)|(log)|(~

ppmax

ppmin


解决缺乏训练样本和系统识别率随时间下降的问题 * 问题的提出：

一个 HMM含有多个待估计参数，因此要得到满意的模型，必须有很多的训练数据。当训练数据集比较小时，一些出现次数较少的观察值没有包含在整个训练数据中，这就会导致训练出的 HMM参数中有一些为 0 的概率。

实际应用中，一个签名者注册时往往只采集几个签名样本。人的字体会随时间改变，因此随着时间的推移，模型将逐渐不适应字体的变化，

识别率会越来越低。动态训练方法：

将在模型使用中鉴定为真的签名作为新的训练数据，用它对以前的模型进行修正，使新模型能同时反映原训练数据和新训练数据的特性

由 Baum Welch 算法的重估公式可知：在迭代中， L 个训练序列的信息是由这些训练序列分别计算出的转移次数、矢量数、状态数通过分子分母分别相加反映在迭代后的新模型参数中的。那么把和作为 L 个训练序列分成的两部分的话，对新训练数据集，用 BW 算法产生相应的模型，并保留各参数重估公式中的分子、分母值，与原模型训练过程中相应的分子分母分别相加，就可以得到同时反映新旧数据集特性的模型参数。

研究背景隐马尔可夫模型技术基于隐马尔可夫模型的签名认证算法适合于隐马尔可夫模型应用的离线签名特征提取

签名特征提取策略图像划分方法特征提取特征分类能力评估

一个基于二维隐马尔可夫模型的中文离线签名认证系统总结和下一步的工作

适合于隐马尔可夫模型应用的离线签名特征提取 1

签名特征提取策略有两种思路可以建立 HMM 的输入离散特征序列：

“元笔划”，通过适当的签名切分算法将签名划分成元笔划序列，作为 HMM 的输入特征序列；

不按语义切分，只简单的把签名所在的图像区域划分成如干部分，把从每一部分提取的特征合在一起组成 HMM 的输入特征序列。

选择：签名书写的任意性使得“元笔划”的划分非常复杂，因此很难找到合

适的定义和切分算法。另一方面，针对简单伪造签名的鉴别不需要使用复杂的结构化签名表示法，通过对所有签名建立一种统一的全局或局部的形状描述就可以获得较好的性能。因此我们选择基于签名图像区域划分的特征提取方式建立 HMM 的输入特征序列。


图像划分方法竖直划分竖直划分间隔定为平均笔划宽度的 2 到 3倍

水平化分水平方向也平均划分：最密的情况下下划分间隔取书写线宽度的 2-3倍。

划分解析度不同特征可能需要不同的解析度。同一特征也可以使用多种解析度，这需要根据实际情况选择最佳划分方案，或者用多分类器。


特征提取一些全局度量

宽、高以及二者的比例整体倾斜度各部分的比例


特征提取局部度量

人类专家通常使用书写轨迹的局部特性鉴别签名。从局部特征考虑，我们可以对每个网格内部的特征加以描述，再把每一列所有格子的特征组合在一起，构成一个特征向量，作为 HMM 的输入。

象素强度特征把签名上的象素点作为一种信号，这样在二值化的签名图像中，每一小格内签名象素点的个数就可以看作该格子内的信号强度


特征提取局部倾斜方向特征

对中文签名而言，在局部区域内，撇、捺、竖的组合，以及横笔划的不完全水平，造成了签名在局部竖直方向上的变化非常复杂。

对于签名骨架上的非边界点 S(x,y) ，按下面的规则分类：• 如果非零，则 S 为负方向倾斜点；• 如果非零，则 S 为正方向倾斜点；• 如果非零，则 S 为竖直方向点；• 如果非零，则 S 为水平方向点；这些点通称为倾斜点。计算每一格内四类倾斜点的数目 NS ,PS, VS, HS ，则局部倾斜方向特征为 [NS ,PS, VS, HS] 。一列内所有格子的倾斜方向特征合在一起就构成该列的局部倾斜方向特征向量。

)1,1()1,1( yxPyxP

)1,1()1,1( yxPyxP

)1,()1,( yxPyxP

),1(),1( yxPyxP


特征提取局部纹理特征

假设一幅二值签名图像是某种小的基元构成的随机过程，那么，可以利用这一基元的颗粒分析方法对象素进行分类。

数学形态学开运算：用结构元素 (structure element)对二值图像做开运算的结果就是所有可以填入图像内部的结构元素的并集，这可以看成是删除了图像中所有比结构元素小的细节。

二值图像的模式谱：假设有一列递增的结构元素，用它们对二值图像 X连续做开运算，直到图像中的象素被完全删除，就可以得到图像的模式谱 (pattern spectrum) ：

模式谱具有旋转、平移不变性。由于签名图像过程的随机性，模式谱实际上是一个随机过程，签名图像的每一次实现都对应于一个特殊的模式谱，该模式谱有其特殊的矩。因此可以将模式谱的矩作为一种图像特征。这里我们使用其均值、方差和扭曲度作为签名特征。

1,,2,1,)(

)()()( 1

kn

XArea

XAreaXAreanp nn SS


特征分类能力评估实验方案

局部倾斜方向特征：每一列不做水平方向划分象素强度特征：划分间隔为 25 象素、划分数为 8 局部纹理特征：水平划分间隔设定为 50 象素，划分数为 4 。以 { / } 为基本结构元素，对划分后的

图像的每一格求其模式谱相邻列重叠 50% ，以取得不同次签名之间较好的相容性。把从每一列得到的特征向量都组合在一起，成为一个大的特征向量，把测试签名和训练签名的距

离与一个决策阈值相比较来确定测试签名的真伪。实验结果

特征 FRR (%) FAR (%) MER (%)

象素强度特征 7 10 8.5

局部倾斜方向特征 11 14 12.5

局部纹理特征 9 7 8.0

研究背景隐马尔可夫模型技术基于隐马尔可夫模型的签名认证算法适合于隐马尔可夫模型应用的离线签名特征提取一个基于二维隐马尔可夫模型的中文离线签名认证系统

实现问题实验评估

总结和下一步的工作

一个基于二维隐马尔可夫模型的中文离线签名认证系统 1

实现问题使用两种特征：象素强度特征和局部方向特征关于向量量化：

要获得较好的聚类效果，每一个码字所代表的胞腔必须在训练集中拥有足够数目的特征向量。因此小的训练集就需要小的码书。每个签名图像获得的特征矢量序列的长度通常在 15 到 40之间。如果对每个签名者用 10 个签名来建模，那么在向量量化阶段所使用的训练集的大小就在 150 到 400之间。对于这种规模的训练集，我们将码书的大小设定为 8 个码字。

离散无跨越、两转移、二维 HMM


实验评估实验分两部分进行

实验一的目的是评估前面所建立的基于二维 HMM 的中文离线签名认证系统的性能，主要是对简单伪造签名的鉴别能力。实验二则是评估模型的自适应性和学习能力。

实验数据集：10组样本，每组对应一个人的签名，包括 20 个真实样本， 10 个简单伪造样本。采集策略：每个签名者每天书写3 到 4 个样本，一周内采集 20 个样本，这样可以使数据库尽可能反映不同时间的字体变化。系统评估使用以下两个参数：误接受率 FAR 和误拒绝率 FRR 。


实验评估实验一：

对每组数据，在假定一个决策控制参数的值的情况下， 10 个真实签名样本被用来训练模型参数，用另外 10 个真实样本测试所建立模型的误拒绝率 FRR ， 10 个伪造样本测试模型的误接受率FAR 。变化控制参数的取值并重复上述实验，选出一个较合适的值，作为系统最终的决策控制参数。

从图中可以看出，在 1.3附近时FAR 和 FRR 有较好的折中。我们在本系统中就使用 1.3 作为决策控制参数。这时 FAR 和 FRR分别约为 4% 和 5% 。


实验评估实验二：

新数据集：每个签名者的 20 个真实样本。这 200 个新签名被分成两组， A组包含每个签名者的 10 个新样本，共 100 个签名， B组包含剩下的签名。

首先在上面训练所得的模型（决策参数取 1.3）下分别测试模型对 A 、 B两个新样本集的误拒绝率。结果分别为 10% 和 9% ，平均 FRR 为 9.5% ，这同原先 5% 的 FRR相比增加了近 5 个百分点。造成这种情况的原因有两个：一是模型的训练样本数较少，不足以反映整体样本的特征；二是由于字体随时间的变化，使得原来训练的模型不再适应新的签名状态。

随后我们将 B 中验证为真的样本作为新的训练集，对原模型加以修正。在新的模型参数下， A 中原先被误识为赝品的签名多数被判别为真，此时模型对数据集 A 的 FRR变为 4% 。同时新模型对伪造样本的误接受率并没有增加。

研究背景隐马尔可夫模型技术基于隐马尔可夫模型的签名认证算法适合于隐马尔可夫模型应用的离线签名特征提取一个基于二维隐马尔可夫模型的中文离线签名认证系统结束语

本文工作总结不足之处

结束语 1

本文工作总结首先分析了离线签名鉴别要解决的问题和技术难点，总结了已有的离

线签名鉴别技术，从签名表示和分类判决两个方面对这些技术进行分类总结，分析不同方法的优点和缺点，并将我们的工作定位在简单伪造签名的鉴别上。

本文讨论了隐马尔可夫模型在离线签名鉴别中的应用。在介绍使用HMM 进行签名鉴别的原理和流程的基础上，依次介绍了在建立 HMM离线签名认证系统的各阶段遇到的问题及其解决方案。

研究了适合 HMM 应用的签名特征提取，尤其是中文签名特征提取。在此基础上选择了两种分类能力较好且简单易用的特征，开发了基于二维 HMM 的中文离线签名认证系统，并通过实验对本文的思想进行了验证。

结束语 2

不足之处：在系统工作流程的各个阶段都作了一定的简化，对

系统性能都有一定的影响采用的是为每个签名者建立一个码书的方法，所建立的码书具有很少的码字，这可能会出现上述码书区分能力不强的问题。在进一步的工作中，可以考虑在大量签名者的签名样本集上设计向量量化码书，以解决训练样本集过小的问题。

深入研究签名特征提取也是下面工作的一个重点。

谢谢各位老师！谢谢各位老师！

Documents

基于离线签名识别的身份认证技术研究