80
脱脱脱脱脱脱脱脱 脱脱脱脱脱脱脱脱 —脱脱脱脱脱脱脱脱脱脱 —脱脱脱脱脱脱脱脱脱脱 脱脱脱脱脱 脱脱脱脱脱 脱脱脱脱脱 申申 申申申申申申申 申申申申申申 申申申申申申申 申申申申申 脱脱脱脱脱脱脱 〇〇

研究内容概要

Embed Size (px)

DESCRIPTION

研究内容概要. 识别技术. 多层次处理. 多种特征变换. 无切分和切分相结合的手写识别. 特征提取与变换. 识别性能提升. 无切分识别. 切分识别. LM 纠错 判别学习. 特征提取. 手写预处理. 基于合成样本的数据稀疏克服方法. 手写文本切分、识别的评价准则. 非限定人的、非限制书写的中文手写文本库. 基础数据及处理. 研究内容概要. 扩展关键技术. 基本 关键 技术. 基础关键数据. 研究内容概要. 识别技术. 特征提取与变换. 识别性能提升. 基础数据及处理. 识别技术. 多种特征变换. 无切分和切分相结合的手写识别. - PowerPoint PPT Presentation

Citation preview

Page 1: 研究内容概要

脱机中文手写识别脱机中文手写识别—从孤立汉字到真实文本—从孤立汉字到真实文本

脱机中文手写识别脱机中文手写识别—从孤立汉字到真实文本—从孤立汉字到真实文本

博士研究生:苏 统 华博士生导师:张田文教授

(申请 哈尔滨工业大学 工学博士学位)

哈尔滨工业大学 计算机学院

二〇〇八年七月十六日

Page 2: 研究内容概要

22脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

研究内容概要

手写预处理

无切分识别

特征提取 LM 纠错判别学习

非限定人的、非限制书写的中文手写文本库

基于合成样本的数据稀疏克服方法

基础数据及处理

无切分和切分相结合的手写识别

识别技术

多种特征变换

多层次处理

特征提取与变换

识别性能提升

手写文本切分、识别的评价准则

切分识别

Page 3: 研究内容概要

33脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

研究内容概要

扩展关键技术

基本关键技术

基础关键数据

Page 4: 研究内容概要

44脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

研究内容概要

基础数据及处理

识别技术

特征提取与变换

识别性能提升

Page 5: 研究内容概要

55脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写文本切分、识别的评价准则

研究内容概要

非限定人的、非限制书写的中文手写文本库

无切分和切分相结合的手写识别

多种特征变换

识别技术

基础数据及处理

特征提取与变换

无切分识别

手写预处理

特征提取

切分识别

Page 6: 研究内容概要

66脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

目录

1 研究依据

3 文本识别的基本评价准则

4 基于切分策略的文本识别研究

5 基于无切分策略的文本识别研究

2 HIT-MW文本库的构建

6 双策略组合的文本识别研究

7 结论

Page 7: 研究内容概要

77脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

目录

1 研究依据

文本识别的基本评价准则

基于切分策略的文本识别研究

基于无切分策略的文本识别研究

HIT-MW文本库的构建

双策略组合的文本识别研究

结论

2

3

4

5

6

7

1 研究依据 手写库评述 识别策略评述 小结2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 8: 研究内容概要

88脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写库评述

1 研究依据 手写库评述 识别策略评述 小结2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 9: 研究内容概要

99脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写库评述

英文手写库: 数字 字母 单词 句子

中文手写库: 孤立汉字

实 际 需 求: 真实手写文本

1 研究依据 手写库评述 识别策略评述 小结2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 10: 研究内容概要

1010脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

识别策略评述

英文: 基于切分策略的识别系统 基于无切分策略的识别系统 单词整体 (holistic) 识别系统

中文: 基于切分策略的识别系统 研究侧重点:

• 孤立汉字识别方面• 基本没有涉及复杂手写对象

1 研究依据 手写库评述 识别策略评述 小结2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 11: 研究内容概要

1111脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

小结

手写汉字识别的未来需求: 文本级别的手写库 切分系统的重新检视 无切分系统的评估 性能评价体系 定位其中的真正问题

1 研究依据 手写库评述 识别策略评述 小结2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 12: 研究内容概要

1212脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

目录

2

研究依据

文本识别的基本评价准则

基于切分策略的文本识别研究

基于无切分策略的文本识别研究

HIT-MW文本库的构建

双策略组合的文本识别研究

结论

1

3

4

5

6

7

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 13: 研究内容概要

1313脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

总体过程

语言材料采样Text Sampling

书写者抽样Writer Sampling

版面设计Layout Design

样张收集Form Collecting

文本分割Text Splitting

采样策略设计阶段Sampling Design

手写样本扫描Handwriting Scan

图像级预处理Image Preprocessing

真值标记Database Labeling

手写行提取Textline Extractio

n

手写样本收集阶段Handwriting Collection

手写库处理阶段Database Processing

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 14: 研究内容概要

1414脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

语言材料采样

语言材料采样Text Sampling

书写者抽样Writer Sampling

版面设计Layout Design

样张收集Form Collecting

文本分割Text Splitting

采样策略设计阶段Sampling Design

手写样本扫描Handwriting Scan

图像级预处理Image Preprocessing

真值标记Database Labeling

手写行分割Textline Extraction

手写样本收集阶段Handwriting Collection

手写库处理阶段Database Processing

数据源:人民日报语料 内建语言上下文 方便未来扩展 根据语用分配样本数量

分层随机采样策略 04 年 1 到 10 月新闻按月份划成 1

0 类 每类内,等额非重复抽取 25 篇

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 15: 研究内容概要

1515脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

语言材料采样

语言材料采样Text Sampling

书写者抽样Writer Sampling

版面设计Layout Design

样张收集Form Collecting

文本分割Text Splitting

采样策略设计阶段Sampling Design

手写样本扫描Handwriting Scan

图像级预处理Image Preprocessing

真值标记Database Labeling

手写行分割Textline Extraction

手写样本收集阶段Handwriting Collection

手写库处理阶段Database Processing

40

50

60

70

80

90

100

100 700 1300 1900 2500 3041

( )字表大小 字数

(%)

覆盖

率40

50

60

70

80

90

100

100 700 1300 1900 2500 3041

( )字表大小 字数

(%)

覆盖

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 16: 研究内容概要

1616脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

书写者抽样

语言材料采样Text Sampling

书写者抽样Writer Sampling

版面设计Layout Design

样张收集Form Collecting

文本分割Text Splitting

采样策略设计阶段Sampling Design

手写样本扫描Handwriting Scan

图像级预处理Image Preprocessing

真值标记Database Labeling

手写行分割Textline Extraction

手写样本收集阶段Handwriting Collection

手写库处理阶段Database Processing

目标人群 在校大学生 高年级高中生 政府公务人员

目标人群确定理由 笔迹定型的证据 减少抽样偏差 适合应用背景 减少资源的开销

采样策略 全国分成南、中和北三个区域 按照就近原则选择书写者

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 17: 研究内容概要

1717脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

书写者抽样

语言材料采样Text Sampling

书写者抽样Writer Sampling

版面设计Layout Design

样张收集Form Collecting

文本分割Text Splitting

采样策略设计阶段Sampling Design

手写样本扫描Handwriting Scan

图像级预处理Image Preprocessing

真值标记Database Labeling

手写行分割Textline Extraction

手写样本收集阶段Handwriting Collection

手写库处理阶段Database Processing

60.69 61.37

0

20

40

60

80

100

采样数据 04年统计数据

(%)

理科

生比

60.69 61.37

0

20

40

60

80

100

采样数据 04年统计数据

(%)

理科

生比

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 18: 研究内容概要

1818脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

书写者抽样

语言材料采样Text Sampling

书写者抽样Writer Sampling

版面设计Layout Design

样张收集Form Collecting

文本分割Text Splitting

采样策略设计阶段Sampling Design

手写样本扫描Handwriting Scan

图像级预处理Image Preprocessing

真值标记Database Labeling

手写行分割Textline Extraction

手写样本收集阶段Handwriting Collection

手写库处理阶段Database Processing

57.2562.54

57.2663.29

0

20

40

60

80

100

高中 大学

男性

高中

生、

大学

生比

例(%

)

采样数据98年统计数据

57.2562.54

57.2663.29

0

20

40

60

80

100

高中 大学

男性

高中

生、

大学

生比

例(%

)

采样数据98年统计数据

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 19: 研究内容概要

1919脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

样本示例

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 20: 研究内容概要

2020脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写行提取

横笔划特征点提取 数据量为原来的 4%

纠斜算法 特征点旋转集 角度投影 判决规则

水平投影法切分手写行 得到 5667 个手写行 共 8677 个手写行 行边界的切分正确率 72.51%

手写样本扫描Handwriting Scan

图像级预处理Image Preprocessing

真值标记Database Labeling

手写行提取Textline Extractio

n

手写库处理阶段Database Processing

手写样本收集阶段Handwriting Collection

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 21: 研究内容概要

2121脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写行提取

中科院自动化所的进展 最小生成树方法 + 距离学习算法 匹配度 90% 时的检测率为 95.02%

手写样本扫描Handwriting Scan

图像级预处理Image Preprocessing

真值标记Database Labeling

手写行提取Textline Extractio

n

手写库处理阶段Database Processing

1 研究依据 2 HIT-MW 库 总体过程 语言材料采样 书写者抽样 样本示例 手写行提取 授权使用者3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 22: 研究内容概要

2222脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

HIT-MW 库的使用者

Page 23: 研究内容概要

2323脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

目录

3

研究依据

文本识别的基本评价准则

基于切分策略的文本识别研究

基于无切分策略的文本识别研究

HIT-MW文本库的构建

双策略组合的文本识别研究

结论

1

2

4

5

6

7

1 研究依据 2 HIT-MW 库3 文本识别评价 实验数据集 识别率 字符切分率4 切分识别5 无切分识别6 双策略组合7 结论

Page 24: 研究内容概要

2424脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

实验数据集

第一步 随机抽取 383 幅手写行作为测试集 ( 共含 8471 字符 ) 。

第二步 在剩余 5284 幅手写行中,删去与测试集中手写行同源 ( 同一个书写者 )的全部手写行。执行删除操作后, 3172幅手写行保留下来,进入下一步处理。

第三步 类似第一步,选择 189 幅手写行作为验证集 ( 共含 4100 字符 ) 。

第四步 进一步删除与验证集同源的手写行 (2306 幅手写行保留下来 ) 。

第五步 随机在 2306 幅手写行中抽出953 份作为训练集 ( 共含 20701 字符 ) 。

1 研究依据 2 HIT-MW 库3 文本识别评价 实验数据集 识别率 字符切分率4 切分识别5 无切分识别6 双策略组合7 结论

Page 25: 研究内容概要

2525脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

实验数据集

1 研究依据 2 HIT-MW 库3 文本识别评价 实验数据集 识别率 字符切分率4 切分识别5 无切分识别6 双策略组合7 结论

Page 26: 研究内容概要

2626脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

识别率

识别正确 D 删除错误S 替换错误I 插入错误

识别正确率 RCR识别准确率 RAR

1 研究依据 2 HIT-MW 库3 文本识别评价 实验数据集 识别率 字符切分率4 切分识别5 无切分识别6 双策略组合7 结论

Page 27: 研究内容概要

2727脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

字符切分率

Hong 算法Liu 算法

改进:加入识别信度信息

1 研究依据 2 HIT-MW 库3 文本识别评价 实验数据集 识别率 字符切分率4 切分识别5 无切分识别6 双策略组合7 结论

Page 28: 研究内容概要

2828脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

字符切分率

Hong 算法示例

Liu 算法示例

Ns表示切分正确的字符块Nb表示切分总块数Nt表示实际总块数

1 研究依据 2 HIT-MW 库3 文本识别评价 实验数据集 识别率 字符切分率4 切分识别5 无切分识别6 双策略组合7 结论

Page 29: 研究内容概要

2929脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

字符切分率

切分正确率 SCR

切分精确率 SPR

切分偏差率 SBR

1 研究依据 2 HIT-MW 库3 文本识别评价 实验数据集 识别率 字符切分率4 切分识别5 无切分识别6 双策略组合7 结论

Page 30: 研究内容概要

3030脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

目录

4

研究依据

文本识别的基本评价准则

基于切分策略的文本识别研究

基于无切分策略的文本识别研究

HIT-MW文本库的构建

双策略组合的文本识别研究

结论

1

2

3

5

6

7

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 31: 研究内容概要

3131脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

总体结构

识 别

预处理

特征提取/ 选择

模式分类

字符

缩放比率:自适应 vs 固定坐标变换:线性 vs 非线性网格划分:均匀 vs 弹性

Cell+FPF梯度en-FPF

MPTMMQDF2

汉字图像

字符切分

手写文本行

字符串

Hong 算法Liu 算法

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 32: 研究内容概要

3232脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写矫形的新观点

设计新的字符切分方法时,如果证据仅来自一种矫形配置,其可信性可能并不成立

设计新的特征时,如果证据仅来自一种矫形配置,其可信性可能并不成立

设计新的分类器时,如果证据仅来自一种矫形配置,其可信性可能并不成立

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 33: 研究内容概要

3333脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写矫形的新观点

不同矫形手段构成 8 种配置1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 34: 研究内容概要

3434脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写矫形的新观点

差别 RCR=0.95% RAR=0.82%

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 35: 研究内容概要

3535脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写矫形的新观点

差别 RCR=2.33% RAR=2.64%

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 36: 研究内容概要

3636脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

手写矫形的新观点

差别 RCR=1.16% RAR=1.29 %

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 37: 研究内容概要

3737脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

改进 MQDF 分类器

二次判别函数 (QDF) : 源于 Bayes 分类理论 假设类条件概率密度为高斯分布

修改的 QDF(MQDF2) : 假设给类别等概率出现 修改协方差估计公式

• 对大的特征 值仍采用最大似然估计• 对小的特征 值截止为

存在问题

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 38: 研究内容概要

3838脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

改进 MQDF 分类器

加入先验信息 可以从训练集估计 也可以从大型语料库估计 记作 MQDF3

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 39: 研究内容概要

3939脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

改进 MQDF 分类器

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 40: 研究内容概要

4040脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

改进 MQDF 分类器

实验结论 加入先验之后,六个系统有明显提升 用语料库估计的先验更具稳定性

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别 总体结构 矫形新观点 改进 MQDF

5 无切分识别6 双策略组合7 结论

Page 41: 研究内容概要

4141脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

目录

5

研究依据

文本识别的基本评价准则

基于切分策略的文本识别研究

基于无切分策略的文本识别研究

HIT-MW文本库的构建

双策略组合的文本识别研究

结论

1

2

3

4

6

7

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 42: 研究内容概要

4242脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

总体结构

基于滑动窗的特征

提取 Viterbi算法

B-W算法

性 能

手写真值

手写行

字符HMM

字符串

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 43: 研究内容概要

4343脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

滑动窗

基于滑动窗的特征

提取 Viterbi算法

B-W算法

性 能

手写真值

手写行

字符HMM

字符串

SW

..., oi, oi+1, ...

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 44: 研究内容概要

4444脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

嵌入训练算法

基于滑动窗的特征

提取 Viterbi算法

B-W算法

性 能

手写真值

手写行

字符HMM

字符串

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 45: 研究内容概要

4545脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

拓扑结构

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

汉字 HMM

数字、标点等HMM

Page 46: 研究内容概要

4646脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

核心概念

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

手写行

中文手写识别

手写行的观测序列

手写行的标记真值

字符 HMM

语句 HMM

o1 o 2 o3 .. .. .. oi .. .. .. oT

“中”“

别”

...

...

...

......

中 文 手 写 识 别

Page 47: 研究内容概要

4747脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

嵌入训练算法

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

...

... ...

...

...

第 q 个 HMM

i j

... ...

Page 48: 研究内容概要

4848脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

...

嵌入训练算法

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

... ...

i j

Page 49: 研究内容概要

4949脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

解码算法

基于滑动窗的特征

提取 Viterbi算法

B-W算法

性 能

手写真值

手写行

字符HMM

字符串

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 50: 研究内容概要

5050脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

解码算法

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

t-1 时刻 t 时刻

i

j

......

Page 51: 研究内容概要

5151脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

与切分系统的比较

无切分系统 特征 : 四平面交叉特征 + 网格特征

切分系统 特征 : 四平面交叉特征 + 网格特征 分类器

• 多模板匹配法 (MPTM)• 改进的 MQDF(MQDF3)

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 52: 研究内容概要

5252脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

与切分系统的比较

80维融合特征的无切分系统

12模板匹配法

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 53: 研究内容概要

5353脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

与切分系统的比较

80维融合特征的无切分系统

包含 Box-Cox 变换的 MQDF3

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 54: 研究内容概要

5454脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

与切分系统的比较

80维融合特征的无切分系统

不含 Box-Cox 变换的 MQDF3

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 55: 研究内容概要

5555脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

与切分系统的比较

小结 无切分识别策略具有巨大潜力 同类型特征 上的表现,无切分系统优于多模板匹配法 同类型特征 上的表现,无切分系统优于不含 Box-Cox

变换的 MQDF 同类型特征 上的表现,无切分系统劣于含 Box-Cox 变

换的 MQDF• 原因:无切分系统没有任何的矫形手段

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 56: 研究内容概要

5656脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

缓解数据不足

主成分分析 (PCA)巨方差绑定方法 (GVS)

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分方法比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 57: 研究内容概要

5757脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

缓解数据不足

16DCELL

64DFPF

80DFUS

36DPCA

36DGVS

Page 58: 研究内容概要

5858脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

缓解数据不足

Page 59: 研究内容概要

5959脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

缓解数据不足

Page 60: 研究内容概要

6060脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

缓解数据不足

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分系统比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 61: 研究内容概要

6161脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

缓解数据不足

小结 有效缓解数据不足问题对汉字识别至关重要

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分系统比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 62: 研究内容概要

6262脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

改进特征提取

竖平面记为 VT 更新公式:

横平面记为 HT撇平面 RT捺平面 LT

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分系统比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 63: 研究内容概要

6363脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

改进特征提取

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分系统比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 64: 研究内容概要

6464脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

改进特征提取

汉字识别率达到 50%

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别 总体结构 滑动窗 嵌入训练算法 解码算法 与切分系统比较 缓解数据不足 改进特征提取6 双策略组合7 结论

Page 65: 研究内容概要

6565脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

目录

6

研究依据

文本识别的基本评价准则

基于切分策略的文本识别研究

基于无切分策略的文本识别研究

HIT-MW文本库的构建

双策略组合的文本识别研究

结论

1

2

3

4

5

7

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

Page 66: 研究内容概要

6666脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

总体结构

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

Page 67: 研究内容概要

6767脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

边界精化

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

Page 68: 研究内容概要

6868脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

字符切分比较

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

SCR比较

Page 69: 研究内容概要

6969脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

识别比较

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

Page 70: 研究内容概要

7070脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

总体结构

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

Page 71: 研究内容概要

7171脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

信度公式

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

Page 72: 研究内容概要

7272脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

信度公式

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

Page 73: 研究内容概要

7373脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

信度公式

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

Page 74: 研究内容概要

7474脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

识别结果

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合 串行结构 并行结构7 结论

Page 75: 研究内容概要

7575脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

目录

7

研究依据

文本识别的基本评价准则

基于切分策略的文本识别系统

基于无切分策略的文本识别系统

HIT-MW文本库的构建

双策略组合的文本识别系统

结论

1

2

3

4

5

6

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 76: 研究内容概要

7676脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

结论

1. 建立手写文本研究的基本评价体系 为评价文本的识别优劣,定义了识别正确率和识别准确率。两种准则可以有效刻画系统在删除错误、插入错误和替换错误上的平衡能力。

为了评价不同字符切分方法,定义了切分正确率、切分精确率和切分偏差率等准则。综合应用这三种准则,可以发现切分方法在数字、标点和汉字等不同字符类型上的切分能力以及在过切分和弱切分上的偏向性。

2. 从全新角度构建 HIT-MW 库 HIT-MW 库是国际上首个文本级别的中文手写库,它的收集

成功昭示着手写文本时代的开端。 大量的支撑证据表明,这些基础数据可以视为全体中文手写

文本的代表子集;其上的识别结果,具有统计意义。 目前,该库已为十多家科研机构采用。

3. 提出基于无切分策略的中文手写识别思路并证实其可行性 训练时直接采用手写行,不需要对字符位置进行标记。 可以刻画相邻字符间的连接关系。

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 77: 研究内容概要

7777脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

结论

4. 无切分识别框架下提出增强的四平面交叉特征( en-FPF) en-FPF 的方向平面包含了重构原始图像的全部重要信息。 en-FPF 在融合了简单的网格特征,并结合 主成分分析和数据

共享方法之后,对汉字的识别正确率,在训练数据稀疏的条件下,仍超过 50% 。

5. 给出切分框架下手写矫形方面的指导意见 设计新算法时,如果其支持证据仅依据于一种手写矫形配置上表现出的优势,那么其可信性可能并不成立。

理想的方案是比较待评价新、旧系统各自最优手写矫形配置上的结果。

6. 给出切分框架下改进的 MQDF 分类器 MQDF 分类器需要改进,以加入先验概率信息。 进一步的分析显示,采用大规模语料估计的先验信息比直接从训练集估计的先验更具稳定性。

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 78: 研究内容概要

7878脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

结论

7. 扩展多分类器研究的内容和 范围 组合输出分别为一串类和单个类(或候选列表)的系统,提高单个识别器的性能, 是一个迄今仍未研究的问题。

定义字符匹配率用以反映两系统在某个识别正确率上的互补能力。

分别设计了串行结构和并行结构的双策略组合系统。

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

Page 79: 研究内容概要

7979脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

结论

1 研究依据 2 HIT-MW 库3 文本识别评价4 切分识别5 无切分识别6 双策略组合7 结论

手写文本切分、识别的评价准则

非限定人的、非限制书写的中文手写文本库

无切分和切分相结合的手写识别

多种特征变换

识别技术

基础数据及处理

特征提取与变换

无切分识别

手写预处理

特征提取

切分识别

Page 80: 研究内容概要

8080脱机中文手写识别—从孤立汉字到真实文本 哈尔滨工业大学 计算机学院

致谢

导师张田文教授各位评审专家所有提供无私帮助的人

关德军、邓毅平、宋玲、张迪、夏辉、喻学才、谢海丹,孙玉凤、苏灿、邵光金

刘成林教授、金连文教授、丁晓青教授、付强博士、郭军教授、张洪刚教授、黎运阳、殷飞、陈霞等

李培华博士、马波博士、吴江华博士、张海英博士、王海晶博士、全红艳博士、王晓华博士、陈冬、邱兆文、蔺想红、王雪华、梅峰平、庞俊彪、江志勇、周宇、赵琦、刘小珍、武斌博、苏先宇等

张强博士、谢宗武博士、邱灵博士、李超、李彬、孟范伟、刘力平、汪春等

陈淑艳、宫美娜、张其顺、姜春晖等 张牧、张新波、李金松等 所有提供手写样本的朋友 论文的匿名审稿人