中文印刷体文档识别技术PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:王科俊,冯伟兴著
- 出 版 社:北京:科学出版社
- 出版年份:2010
- ISBN:9787030287601
- 页数:203 页
第1章 绪论 1
1.1 中文印刷体文档识别基本原理 1
1.2 中文印刷体文档识别研究现状 2
1.2.1 印刷体文档的汉字识别 2
1.2.2 印刷体文档的公式识别 4
1.2.3 印刷体文档的表格识别 6
1.3 中文印刷体文档识别中的难点 6
第2章 中文印刷体文档图像预处理 8
2.1 中文印刷体文档图像采集 8
2.1.1 文档图像采集 8
2.1.2 文档图像显示 8
2.1.3 文档图像格式 9
2.2 中文印刷体文档图像特点 12
2.3 二值化处理 12
2.3.1 图像灰度化 13
2.3.2 图像二值化 13
2.4 平滑去噪 18
2.4.1 邻域平均法 18
2.4.2 中值平均法 18
2.4.3 噪声直接去除法 19
2.5 倾斜校正 20
2.5.1 图像倾斜检测 20
2.5.2 图像倾斜校正 26
第3章 版面分析 30
3.1 版面结构 30
3.2 版面分析方法 31
3.2.1 基于连通域的版面分析方法 33
3.2.2 二分法 34
3.2.3 基于组合特征的版面分析方法 36
3.2.4 基于神经网络的版面分析方法 37
3.2.5 基于最近邻连接强度和行列可信度的版面分析方法 38
3.3 版面理解 44
3.3.1 文字区域 44
3.3.2 图片区域 44
3.3.3 表格区域 45
3.3.4 版面结构表示与存储 45
3.4 版面重构 51
第4章 印刷体汉字识别 52
4.1 文本区域预处理 52
4.1.1 文本增强 53
4.1.2 字符分割 53
4.1.3 字符细化 54
4.1.4 字符归一化 55
4.1.5 文本区域处理效果图 57
4.2 印刷体汉字的特征提取 58
4.2.1 印刷体汉字的统计特性 58
4.2.2 印刷体汉字的常用特征 62
4.3 印刷体汉字识别的实现方式 65
第5章 公式的定位与提取 71
5.1 印刷体文档公式的特点 72
5.2 基于投影的公式定位和提取 72
5.2.1 独立行公式的定位 72
5.2.2 内嵌公式的定位 74
5.3 基于Parzen窗的独立行公式定位和提取 75
5.3.1 待分类文本行的特征数据提取 75
5.3.2 Parzen窗方法 76
5.3.3 公式定位与提取效果 77
5.4 基于字符宽度中心矩的公式定位和提取 78
5.4.1 文本区域基本数据获取 78
5.4.2 含公式的文本行提取 79
5.4.3 文本行中公式判别 81
5.4.4 独立行公式的定位 83
5.4.5 内嵌公式的定位 83
5.4.6 公式定位与提取效果 84
5.5 基于汉字拒识的内嵌公式定位和提取 85
5.5.1 内嵌公式的定位 85
5.5.2 公式定位与提取效果 86
第6章 公式字符分割与识别 88
6.1 公式字符的特点 88
6.2 公式字符的分割 89
6.2.1 基于轮廓跟踪的字符分割 90
6.2.2 基于连通域的字符分割 92
6.3 公式字符的识别 97
6.3.1 公式字符图像预处理 97
6.3.2 基于模板匹配的公式字符识别 99
6.3.3 基于特征的公式字符识别 100
6.3.4 印刷体公式字符识别的实现 104
6.3.5 公式字符识别方法 104
第7章 公式结构分析与表示 107
7.1 公式结构分析的难点 107
7.1.1 数学运算符的模糊性 107
7.1.2 符号的上下文敏感性 107
7.1.3 表示习惯的差异性 108
7.1.4 公式的复杂性 108
7.1.5 公式的多行结构 108
7.2 公式结构分析前的字符预处理 108
7.3 公式结构分析方法 109
7.4 公式结构表示方法 120
7.4.1 公式的典型表示方法 120
7.4.2 实验结果 124
第8章 图表处理 129
8.1 文档中图形图像的表示与处理 129
8.1.1 游程压缩 129
8.1.2 霍夫曼编码压缩 130
8.1.3 算术压缩方法 131
8.1.4 Rice压缩方法 131
8.1.5 LZW压缩方法 131
8.2 文档中表格的分析与识别 132
8.2.1 表格预处理 132
8.2.2 表格直线提取 139
8.2.3 表格结构分析 142
8.2.4 表格字符提取与识别 143
第9章 中文印刷体文档识别软件HEUOCR的设计与实现 144
9.1 应用程序框架的构建 144
9.1.1 框架风格 144
9.1.2 数字图像处理类 146
9.2 文档图像预处理 152
9.2.1 图像灰度化 153
9.2.2 图像平滑滤波 155
9.2.3 图像阈值分割 156
9.3 文档图像版面分析 158
9.3.1 基本连通域提取 159
9.3.2 基本连通域分析 160
9.4 文本汉字识别 162
9.4.1 字符分割 162
9.4.2 字符识别 170
9.5 公式识别 178
9.5.1 公式定位 178
9.5.2 公式字符分割 181
9.5.3 公式字符特征提取 183
9.5.4 公式字符识别 190
9.5.5 公式结构分析 195
参考文献 199
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019
- 《信息系统安全技术管理策略 信息安全经济学视角》赵柳榕著 2020
- 《工程静力学》王科盛主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《儿童行为心理学》江晓兴著 2018
- 《中外单簧管经典曲集》冯伟,曲磊编注 2019
- 《女性外阴整形术 概念、分类及手术技巧》陶俊责任编辑;黄金龙,陈晓东译;(美国)Christine A.Hamoni,Paul E.Banwell,Red Alinsod 2019
- 《面向社会的档案信息资源规划研究》周林兴著 2019
- 《傲慢与偏见》(英)简·奥斯汀著;王科一译 2019
- 《物理化学》徐开俊主编 2019
- 《中国国有企业40年 制度变迁与行为演化》黄速建,贺俊主编 2019
- 《恋爱是一件小题大做的事》(日)谷川俊太郎 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《小牛顿科学故事馆 进化论的故事》小牛顿科学教育公司编辑团队 2018
- 《小牛顿科学故事馆 医学的故事》小牛顿科学教育公司编辑团队 2018
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019