中文信息处理技术教程PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:朱巧明,李培峰,吴娴,朱晓旭等编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2005
- ISBN:7302117616
- 页数:291 页
目录 1
第1章 概论 1
1.1 信息处理 1
1.2 中文信息处理 2
1.3 计算机中文信息处理主要研究对象 3
1.4 现代汉语的特点 12
1.5 中文信息处理的国际化和本地化 18
思考题 20
第2章 汉字信息在计算机内部的表示 21
2.1 英文字符在计算机内部的表示 21
2.2 中文信息在计算机中的表示 24
2.3 汉字代码体系 25
2.4 汉字的排序 27
2.5 汉字编码字符集 28
思考题 37
第3章 汉字字符编码集的应用 39
3.1 汉字的简繁转换 39
3.1.1 汉字简化字标准介绍 39
3.1.2 简繁—繁简转换中遇到的问题 40
3.1.3 汉字简繁—繁简转换的实现 41
3.2 Intemet上常用的字符编码集 42
3.2.1 UUENCODE编码 43
3.2.2 QUOTED-PRINTABLE编码 44
3.2.3 BASE64编码 45
3.2.4 HZ编码 46
3.2.5 UTF编码 46
思考题 50
附录 51
第4章 汉字编码技术 55
4.1 汉字编码的发展 55
4.2 汉字编码中的几个概念 56
4.2.1 字符集/字汇和词汇 56
4.2.2 码元 56
4.3.1 汉字的熵 57
4.3 汉字编码理论 57
4.2.5 编码空间和编码效率 57
4.2.4 单码和重码 57
4.2.3 码长 57
4.3.2 汉字键盘编码的依据 59
4.3.3 汉字编码分类 62
4.3.4 键盘编码和键盘 63
4.4 数码键盘方案 67
4.4.1 纵横码 68
4.4.2 五笔数码 68
4.4.3 统一码 69
4.5 汉字编码的标准和规范 70
4.5.1 汉字编码国家标准和规范 70
4.5.3 汉字键盘编码和输入系统的性能指标 71
8.3 汉字显示技术实例 1 71
4.5.2 与汉字编码有关的标准与规范说明 71
思考题 73
第5章 中文平台与中文操作系统 74
5.1 中文平台与中文操作系统历史 74
5.2 中文操作系统设计方法 75
5.3 汉字处理模块与汉字代码体系 77
5.4 常用中文操作系统简介 78
5.4.1 CC-DOS 78
5.4.2 中文Windows 79
5.4.3 中文Linux操作系统 81
5.4.4 中文嵌入式操作系统 83
思考题 86
6.1.1 汉字输入发展史 87
第6章 汉字输入技术 87
6.1 汉字输入技术概述 87
6.1.2 汉字输入分类 88
6.1.3 汉字输入技术的发展和应用 91
6.2 汉字键盘输入技术 93
6.2.1 键盘 93
6.2.2 汉字键盘输入原理 95
6.2.3 键盘汉字输入的总体流程 97
6.2.4 输入码对照表的设计 98
6.3 汉字键盘输入系统 108
6.3.1 汉字输入系统的分类 108
6.3.2 汉字输入系统的功能 109
6.3.3 汉字键盘输入系统的工作流程 111
6.4 Windows汉字输入技术 112
6.4.1 概述 112
6.4.2 Windows 中的汉字输入原理 114
6.4.3 输入法生成器 116
6.4.4 在SDK和DDK环境下开发输入系统 117
6.5 Linux下的汉字输入系统 117
6.5.1 概述 117
6.5.2 XIM协议 118
6.5.3 输入法服务器和输入法 121
6.5.4 输入法设计 123
思考题 124
7.1.1 汉字字形及其特点 126
7.1 汉字字形概述 126
第7章 汉字字形和字形库管理技术 126
7.1.2 字形、字型和字形库 128
7.1.3 字形描述技术及其种类 129
7.2 字形描述技术 129
7.2.1 点阵字形描述技术 129
7.2.2 轮廓矢量字形描述技术 132
7.2.3 曲线轮廓字形描述技术 132
7.2.4 其他字形描述技术 134
7.3 字形的压缩和还原 135
7.3.1 字形点阵的压缩和还原 136
7.3.2 轮廓矢量字形的压缩方法 137
7.3.3 其他字形压缩技术 139
7.4 字形的放大和缩小 141
7.4.1 汉字的字号 141
7.4.3 防止字形放大和缩小失真的措施 142
7.4.2 字形放大和缩小的基本原理 142
7.4.4 字形放大缩小的应用 144
7.5 TTF字形技术 145
7.5.1 什么是TrueType 145
7.5.2 TrueType的基本原理 145
7.5.3 TrueType字体文件结构 147
7.5.4 TrueType的特点和优势 148
7.5.5 TrueType的应用 149
7.5.6 OpenType的出现 151
7.6 字库的设计和管理技术 152
7.6.1 汉字字库的基本要求 152
7.6.2 汉字库性能的评测 153
7.6.3 汉字库结构的设计 154
7.6.4 点阵字库的制作 155
7.7.1 造字程序的使用 157
7.7 汉字字库的应用 157
7.7.2 安装新字体 159
思考题 160
第8章 汉字输出技术 161
8.1 汉字的输出技术综述 161
8.2 汉字显示输出原理和基本结构 162
8.2.1 显示设备 162
8.2.2 汉字显示的原理 168
8.2.3 内码缓冲区和字形缓冲区 169
8.2.4 汉字显示输出过程 170
8.2.5 汉字终端 171
8.3.1 DOS下的汉字显示技术 171
8.3.2 Windows的汉字显示技术 173
8.4 打印输出原理和基本结构 178
8.4.1 打印设备 178
8.4.2 汉字打印概述 179
8.4.3 汉字打印原理 180
8.4.4 汉字打印过程 181
8.4.5 汉字打印机 181
思考题 182
第9章 汉语分词 183
9.1 汉语分词的概念 183
9.2 分词词典 185
9.2.1 分词词典简介 185
9.2.2 基于词属性的分词词典 186
9.2.3 基于二次索引的分词词典 188
9.3 常用的汉语分词算法 189
9.3.1 正向最大匹配算法 190
9.3.3 邻近匹配算法 191
9.3.2 逆向最大匹配算法 191
9.3.4 最短路径匹配算法 193
9.3.5 基于统计的最短路径分词算法 195
9.4 无词典分词方法 196
9.4.1 分词模型 196
9.4.2 无词典分词算法 197
9.5 交集型歧义的切分 199
9.5.1 基本概念 200
9.5.2 利用互信息和t-测试差处理交集型歧义切分 201
思考题 202
10.1 信息检索概述 203
10.1.1 信息检索的定义 203
第10章 中文信息检索 203
10.1.2 结构、半结构和非结构化文档 204
10.1.3 信息检索的任务 205
10.1.4 信息检索的评测 206
10.1.5 中文信息检索的特点 207
10.1.6 信息检索的模型 207
10.1.7 信息检索系统的结构 208
10.2 基于统计的信息检索模型 209
10.2.1 传统的布尔模型 210
10.2.2 扩展的布尔模型 210
10.2.3 向量空间模型 212
10.2.4 概率模型 218
10.3 基于语义的信息检索 225
10.3.1 自然语言处理 225
10.3.2 潜在语义索引 228
10.3.3 神经网络 234
10.4 信息检索系统介绍 235
10.5 Web信息检索 236
10.5.1 Web信息检索系统 237
10.5.2 Web信息检索的特点 238
10.5.3 搜索引擎 240
10.5.4 搜索引擎的网页分级算法 244
10.5.5 常用Web搜索引擎 248
10.5.6 搜索引擎技术的发展趋势 249
思考题 250
第11章 中文信息抽取 251
11.1 信息抽取概述 251
11.1.1 信息抽取的含义 251
11.1.3 信息抽取和信息检索 252
11.1.2 信息抽取实例 252
11.1.4 中文信息抽取的特殊性 253
11.1.5 信息抽取的历史和现状 253
11.1.6 信息抽取系统的评测 256
11.1.7 信息抽取任务 256
11.2 信息抽取系统的结构 258
11.2.1 信息抽取系统的构建方法 258
11.2.2 通用信息抽取结构 259
11.2.3 Bare Bones结构 260
11.3 信息抽取中的自然语言处理技术 261
11.3.1 命名实体识别 261
11.3.2 句法分析 261
11.3.3 文章分析和推理 262
11.3.4 知识理解 262
11.4.1 基于规则的信息抽取技术 263
11.4 信息抽取技术 263
11.4.2 隐马尔可夫模型 267
11.5 Web信息抽取 271
11.5.1基于自然语言处理方式的信息抽取 272
11.5.2 包装器方式的信息抽取 272
1 1.5.3 基于本体方式的信息抽取 273
11.5.4 基于HTML结构的信息抽取 273
11.5.5 基于Web查询的信息抽取 274
思考题 274
第12章 中文文本分类技术 . 275
12.1 文本分类的概念 275
12.1.1 什么是文本分类 275
12.1.2 文本分类的两种类型 275
12.1.4 中文文本分类 276
12.1.3 文本分类的两种方式 276
12.1.5 文本分类的国内外研究情况 277
12.2 文本特征的选择 278
12.2.1 预处理 278
12.2.2 文本特征的选择 278
12.3 文本分类方法 281
12.3.1 Rocchio方法——相似度计算方法 281
12.3.2 Na?ve Bayes——贝叶斯方法 281
12.3.3 KNN方法——K近邻方法 282
12.3.4 SVM——支持向量机 282
12.3.5 Decision Tree——决策树方法 283
12.4 选择阈值的策略 284
12.5 评估方法 285
思考题 286
参考文献 287
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《激光加工实训技能指导理实一体化教程 下》王秀军,徐永红主编;刘波,刘克生副主编 2017
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《AutoCAD 2019 循序渐进教程》雷焕平,吴昌松,陈兴奎主编 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《超强大·英语10000+常考单词+常用搭配,随身带随时用》朱晓琴 2019
- 《南方快车》朱卫净,潘丽萍责编;吴娴敏译者;(智利)路易斯·塞普尔维达 2019
- 《香山设县850年》吴冉彬主编;中山市地方志办公室等编 2003
- 《精准扶贫精准脱贫百村调研 交汪村卷 党建引领下的苗村脱贫之路》廖永松著;李培林主编 2018
- 《晚霞风景 《晚霞》杂志创刊十周年作品选集》王诚德等编 1999
- 《行知工程创新教学探索系列 小学语文单元整体课程实施与评价》李怀源等编 2012
- 《诗文阅读入门》邵霭吉,戴永俊,朱桂元主编;王延潭,王学荣,王辉等编 1991
- 《全国精美作文年选 2009年度经典 高中卷》邵荣霞主编;邵荣霞,张年军,屠丽君等编 2010
- 《外科诊疗手册 新1版》裘法祖等编 1956
- 《数学分析习题课讲义 第2版 下册》谢惠民等编 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019