目录 1
第1章 概论 1
1.1 信息处理 1
1.2 中文信息处理 2
1.3 计算机中文信息处理主要研究对象 3
1.4 现代汉语的特点 12
1.5 中文信息处理的国际化和本地化 18
思考题 20
第2章 汉字信息在计算机内部的表示 21
2.1 英文字符在计算机内部的表示 21
2.2 中文信息在计算机中的表示 24
2.3 汉字代码体系 25
2.4 汉字的排序 27
2.5 汉字编码字符集 28
思考题 37
第3章 汉字字符编码集的应用 39
3.1 汉字的简繁转换 39
3.1.1 汉字简化字标准介绍 39
3.1.2 简繁—繁简转换中遇到的问题 40
3.1.3 汉字简繁—繁简转换的实现 41
3.2 Intemet上常用的字符编码集 42
3.2.1 UUENCODE编码 43
3.2.2 QUOTED-PRINTABLE编码 44
3.2.3 BASE64编码 45
3.2.4 HZ编码 46
3.2.5 UTF编码 46
思考题 50
附录 51
第4章 汉字编码技术 55
4.1 汉字编码的发展 55
4.2 汉字编码中的几个概念 56
4.2.1 字符集/字汇和词汇 56
4.2.2 码元 56
4.3.1 汉字的熵 57
4.3 汉字编码理论 57
4.2.5 编码空间和编码效率 57
4.2.4 单码和重码 57
4.2.3 码长 57
4.3.2 汉字键盘编码的依据 59
4.3.3 汉字编码分类 62
4.3.4 键盘编码和键盘 63
4.4 数码键盘方案 67
4.4.1 纵横码 68
4.4.2 五笔数码 68
4.4.3 统一码 69
4.5 汉字编码的标准和规范 70
4.5.1 汉字编码国家标准和规范 70
4.5.3 汉字键盘编码和输入系统的性能指标 71
8.3 汉字显示技术实例 1 71
4.5.2 与汉字编码有关的标准与规范说明 71
思考题 73
第5章 中文平台与中文操作系统 74
5.1 中文平台与中文操作系统历史 74
5.2 中文操作系统设计方法 75
5.3 汉字处理模块与汉字代码体系 77
5.4 常用中文操作系统简介 78
5.4.1 CC-DOS 78
5.4.2 中文Windows 79
5.4.3 中文Linux操作系统 81
5.4.4 中文嵌入式操作系统 83
思考题 86
6.1.1 汉字输入发展史 87
第6章 汉字输入技术 87
6.1 汉字输入技术概述 87
6.1.2 汉字输入分类 88
6.1.3 汉字输入技术的发展和应用 91
6.2 汉字键盘输入技术 93
6.2.1 键盘 93
6.2.2 汉字键盘输入原理 95
6.2.3 键盘汉字输入的总体流程 97
6.2.4 输入码对照表的设计 98
6.3 汉字键盘输入系统 108
6.3.1 汉字输入系统的分类 108
6.3.2 汉字输入系统的功能 109
6.3.3 汉字键盘输入系统的工作流程 111
6.4 Windows汉字输入技术 112
6.4.1 概述 112
6.4.2 Windows 中的汉字输入原理 114
6.4.3 输入法生成器 116
6.4.4 在SDK和DDK环境下开发输入系统 117
6.5 Linux下的汉字输入系统 117
6.5.1 概述 117
6.5.2 XIM协议 118
6.5.3 输入法服务器和输入法 121
6.5.4 输入法设计 123
思考题 124
7.1.1 汉字字形及其特点 126
7.1 汉字字形概述 126
第7章 汉字字形和字形库管理技术 126
7.1.2 字形、字型和字形库 128
7.1.3 字形描述技术及其种类 129
7.2 字形描述技术 129
7.2.1 点阵字形描述技术 129
7.2.2 轮廓矢量字形描述技术 132
7.2.3 曲线轮廓字形描述技术 132
7.2.4 其他字形描述技术 134
7.3 字形的压缩和还原 135
7.3.1 字形点阵的压缩和还原 136
7.3.2 轮廓矢量字形的压缩方法 137
7.3.3 其他字形压缩技术 139
7.4 字形的放大和缩小 141
7.4.1 汉字的字号 141
7.4.3 防止字形放大和缩小失真的措施 142
7.4.2 字形放大和缩小的基本原理 142
7.4.4 字形放大缩小的应用 144
7.5 TTF字形技术 145
7.5.1 什么是TrueType 145
7.5.2 TrueType的基本原理 145
7.5.3 TrueType字体文件结构 147
7.5.4 TrueType的特点和优势 148
7.5.5 TrueType的应用 149
7.5.6 OpenType的出现 151
7.6 字库的设计和管理技术 152
7.6.1 汉字字库的基本要求 152
7.6.2 汉字库性能的评测 153
7.6.3 汉字库结构的设计 154
7.6.4 点阵字库的制作 155
7.7.1 造字程序的使用 157
7.7 汉字字库的应用 157
7.7.2 安装新字体 159
思考题 160
第8章 汉字输出技术 161
8.1 汉字的输出技术综述 161
8.2 汉字显示输出原理和基本结构 162
8.2.1 显示设备 162
8.2.2 汉字显示的原理 168
8.2.3 内码缓冲区和字形缓冲区 169
8.2.4 汉字显示输出过程 170
8.2.5 汉字终端 171
8.3.1 DOS下的汉字显示技术 171
8.3.2 Windows的汉字显示技术 173
8.4 打印输出原理和基本结构 178
8.4.1 打印设备 178
8.4.2 汉字打印概述 179
8.4.3 汉字打印原理 180
8.4.4 汉字打印过程 181
8.4.5 汉字打印机 181
思考题 182
第9章 汉语分词 183
9.1 汉语分词的概念 183
9.2 分词词典 185
9.2.1 分词词典简介 185
9.2.2 基于词属性的分词词典 186
9.2.3 基于二次索引的分词词典 188
9.3 常用的汉语分词算法 189
9.3.1 正向最大匹配算法 190
9.3.3 邻近匹配算法 191
9.3.2 逆向最大匹配算法 191
9.3.4 最短路径匹配算法 193
9.3.5 基于统计的最短路径分词算法 195
9.4 无词典分词方法 196
9.4.1 分词模型 196
9.4.2 无词典分词算法 197
9.5 交集型歧义的切分 199
9.5.1 基本概念 200
9.5.2 利用互信息和t-测试差处理交集型歧义切分 201
思考题 202
10.1 信息检索概述 203
10.1.1 信息检索的定义 203
第10章 中文信息检索 203
10.1.2 结构、半结构和非结构化文档 204
10.1.3 信息检索的任务 205
10.1.4 信息检索的评测 206
10.1.5 中文信息检索的特点 207
10.1.6 信息检索的模型 207
10.1.7 信息检索系统的结构 208
10.2 基于统计的信息检索模型 209
10.2.1 传统的布尔模型 210
10.2.2 扩展的布尔模型 210
10.2.3 向量空间模型 212
10.2.4 概率模型 218
10.3 基于语义的信息检索 225
10.3.1 自然语言处理 225
10.3.2 潜在语义索引 228
10.3.3 神经网络 234
10.4 信息检索系统介绍 235
10.5 Web信息检索 236
10.5.1 Web信息检索系统 237
10.5.2 Web信息检索的特点 238
10.5.3 搜索引擎 240
10.5.4 搜索引擎的网页分级算法 244
10.5.5 常用Web搜索引擎 248
10.5.6 搜索引擎技术的发展趋势 249
思考题 250
第11章 中文信息抽取 251
11.1 信息抽取概述 251
11.1.1 信息抽取的含义 251
11.1.3 信息抽取和信息检索 252
11.1.2 信息抽取实例 252
11.1.4 中文信息抽取的特殊性 253
11.1.5 信息抽取的历史和现状 253
11.1.6 信息抽取系统的评测 256
11.1.7 信息抽取任务 256
11.2 信息抽取系统的结构 258
11.2.1 信息抽取系统的构建方法 258
11.2.2 通用信息抽取结构 259
11.2.3 Bare Bones结构 260
11.3 信息抽取中的自然语言处理技术 261
11.3.1 命名实体识别 261
11.3.2 句法分析 261
11.3.3 文章分析和推理 262
11.3.4 知识理解 262
11.4.1 基于规则的信息抽取技术 263
11.4 信息抽取技术 263
11.4.2 隐马尔可夫模型 267
11.5 Web信息抽取 271
11.5.1基于自然语言处理方式的信息抽取 272
11.5.2 包装器方式的信息抽取 272
1 1.5.3 基于本体方式的信息抽取 273
11.5.4 基于HTML结构的信息抽取 273
11.5.5 基于Web查询的信息抽取 274
思考题 274
第12章 中文文本分类技术 . 275
12.1 文本分类的概念 275
12.1.1 什么是文本分类 275
12.1.2 文本分类的两种类型 275
12.1.4 中文文本分类 276
12.1.3 文本分类的两种方式 276
12.1.5 文本分类的国内外研究情况 277
12.2 文本特征的选择 278
12.2.1 预处理 278
12.2.2 文本特征的选择 278
12.3 文本分类方法 281
12.3.1 Rocchio方法——相似度计算方法 281
12.3.2 Na?ve Bayes——贝叶斯方法 281
12.3.3 KNN方法——K近邻方法 282
12.3.4 SVM——支持向量机 282
12.3.5 Decision Tree——决策树方法 283
12.4 选择阈值的策略 284
12.5 评估方法 285
思考题 286
参考文献 287