第1章 绪论 1
1.1 课题的提出 1
1.2 研究现状分析 2
1.3 研究内容和主要工作 3
1.4 本书的结构及安排 5
参考文献 6
第2章 脱机手写汉字识别系统的实现 10
2.1 脱机手写汉字识别系统 10
2.1.1 识别原理 10
2.1.2 基于模板匹配的两级脱机手写汉字识别系统 11
2.2 手写汉字识别系统的特征提取 11
2.2.1 方向线素的定义 11
2.2.2 方向线素特征的提取 12
2.3 基于模板匹配的识别算法 13
2.4 汉字识别系统的粗分类算法 13
2.4.1 粗分类特征提取 14
2.4.2 粗分类时的识别算法 15
2.5 汉字识别系统的细分类算法 16
2.5.1 细分类特征提取 16
2.5.2 细分类时的识别算法 17
2.6 本章小结 17
参考文献 18
第3章 HCL2004脱机手写汉字库及相关研究 20
3.1 研究背景及现状 20
3.2 HCL2000手写汉字数据库 21
3.2.1 数据库系统模型 21
3.2.2 汉字样本信息的组织 22
3.2.3 书写者信息的管理 23
3.2.4 两种信息的互查方法 23
3.2.5 HCL2000的数据分布 23
3.3 对HCL2000数据库进行更新的原因 24
3.4 手写汉字数据库HCL2004系统模型及实现 24
3.4.1 汉字样本信息的组织形式 25
3.4.2 样本集的划分 25
3.4.3 HCL2004手写汉字数据库的实现 26
3.5 基于HCL2004数据库的分析 29
3.5.1 实验系统 29
3.5.2 训练样本数与识别率 30
3.5.3 样本质量的选择与识别 31
3.5.4 基于单字的识别性能分析 32
3.5.5 关于距离测度分类器性能的分析 33
3.6 本章小结 35
参考文献 35
第4章 基于统计分析的手写汉字识别算法研究 38
4.1 引言 38
4.2 几种常用的平均数 38
4.2.1 均值 39
4.2.2 中位数 39
4.3 样本数据的分散程度描述 42
4.3.1 标准差 42
4.3.2 极差 43
4.4 HCL2004数据库样本特征分析 43
4.5 基于平均数的手写汉字标准模板 45
4.5.1 基于均值的标准模板 45
4.5.2 基于分位数的标准模板 45
4.6 引入数据分散程度参数的距离测度 46
4.6.1 引入极差的距离测度 47
4.6.2 引入标准差的距离测度 47
4.7 实验 48
4.7.1 不同标准模板分类性能分析 49
4.7.2 引入不同分散程度参数的距离测度分类性能分析 50
4.8 本章小结 52
参考文献 53
第5章 基于高阶统计量的距离测度 54
5.1 引言 54
5.2 在距离测度中引入高阶统计量 55
5.3 基于二阶标准差的距离测度 56
5.3.1 二阶标准差的定义 56
5.3.2 用二阶标准差刻画特征分布的可行性分析 57
5.3.3 基于二阶标准差的距离测度 58
5.3.4 实验 60
5.4 基于高阶统计量的距离测度 61
5.4.1 3种高阶统计量 61
5.4.2 基于高阶统计量的距离测度 62
5.4.3 实验 63
5.5 本章小结 65
参考文献 65
第6章 基于样本聚类的多级汉字识别系统 67
6.1 引言 67
6.2 基于DB准则的K均值聚类算法 68
6.2.1 K均值算法 68
6.2.2 DB有效性准则 69
6.2.3 基于DB准则的K均值算法 70
6.3 多模板匹配算法 71
6.3.1 多模板匹配算法原理 71
6.3.2 多模板匹配算法的设计方案 72
6.4 实验 73
6.4.1 实验系统 73
6.4.2 系统实现 74
6.4.3 实验结果及分析 75
6.5 本章小结 76
参考文献 76
第7章 基于广义置信度的样本选择算法 80
7.1 引言 80
7.2 字符识别的置信度分析 81
7.2.1 分类器的置信度和广义置信度 81
7.2.2 分类器的置信度估计 82
7.3 基于广义置信度的边界样本定义 83
7.4 基于广义置信度的样本选择算法 84
7.5 实验结果及分析 86
7.6 本章小结 89
参考文献 90
第8章 结束语 93