《中文信息处理技术教程》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:朱巧明,李培峰,吴娴,朱晓旭等编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2005
  • ISBN:7302117616
  • 页数:291 页
图书介绍:计算机中文信息处理技术是一门综合性的交叉学科,它包含了计算机科学、数学、认知心理学和语言学等多个学科。全书分三个部分比较系统地介绍了计算机中文信息处理技术的研究对象、研究方法和技术。第一章到第四章主要介绍中文信息处理技术中的一些基础理论和基础知识;第五章到第八章主要介绍中文信息处理技术中的基本I/O技术以及相关的字形技术;第九章到第十二章主要介绍了中文信息处理技术中的自然语言处理技术。本书可以作为高等学校计算机科学与技术专业本科教材或参考书,也可以作为计算机中文信息处理技术研究领域的研究生的教学参考书和计算机技术研发人员的参考书。

目录 1

第1章 概论 1

1.1 信息处理 1

1.2 中文信息处理 2

1.3 计算机中文信息处理主要研究对象 3

1.4 现代汉语的特点 12

1.5 中文信息处理的国际化和本地化 18

思考题 20

第2章 汉字信息在计算机内部的表示 21

2.1 英文字符在计算机内部的表示 21

2.2 中文信息在计算机中的表示 24

2.3 汉字代码体系 25

2.4 汉字的排序 27

2.5 汉字编码字符集 28

思考题 37

第3章 汉字字符编码集的应用 39

3.1 汉字的简繁转换 39

3.1.1 汉字简化字标准介绍 39

3.1.2 简繁—繁简转换中遇到的问题 40

3.1.3 汉字简繁—繁简转换的实现 41

3.2 Intemet上常用的字符编码集 42

3.2.1 UUENCODE编码 43

3.2.2 QUOTED-PRINTABLE编码 44

3.2.3 BASE64编码 45

3.2.4 HZ编码 46

3.2.5 UTF编码 46

思考题 50

附录 51

第4章 汉字编码技术 55

4.1 汉字编码的发展 55

4.2 汉字编码中的几个概念 56

4.2.1 字符集/字汇和词汇 56

4.2.2 码元 56

4.3.1 汉字的熵 57

4.3 汉字编码理论 57

4.2.5 编码空间和编码效率 57

4.2.4 单码和重码 57

4.2.3 码长 57

4.3.2 汉字键盘编码的依据 59

4.3.3 汉字编码分类 62

4.3.4 键盘编码和键盘 63

4.4 数码键盘方案 67

4.4.1 纵横码 68

4.4.2 五笔数码 68

4.4.3 统一码 69

4.5 汉字编码的标准和规范 70

4.5.1 汉字编码国家标准和规范 70

4.5.3 汉字键盘编码和输入系统的性能指标 71

8.3 汉字显示技术实例 1 71

4.5.2 与汉字编码有关的标准与规范说明 71

思考题 73

第5章 中文平台与中文操作系统 74

5.1 中文平台与中文操作系统历史 74

5.2 中文操作系统设计方法 75

5.3 汉字处理模块与汉字代码体系 77

5.4 常用中文操作系统简介 78

5.4.1 CC-DOS 78

5.4.2 中文Windows 79

5.4.3 中文Linux操作系统 81

5.4.4 中文嵌入式操作系统 83

思考题 86

6.1.1 汉字输入发展史 87

第6章 汉字输入技术 87

6.1 汉字输入技术概述 87

6.1.2 汉字输入分类 88

6.1.3 汉字输入技术的发展和应用 91

6.2 汉字键盘输入技术 93

6.2.1 键盘 93

6.2.2 汉字键盘输入原理 95

6.2.3 键盘汉字输入的总体流程 97

6.2.4 输入码对照表的设计 98

6.3 汉字键盘输入系统 108

6.3.1 汉字输入系统的分类 108

6.3.2 汉字输入系统的功能 109

6.3.3 汉字键盘输入系统的工作流程 111

6.4 Windows汉字输入技术 112

6.4.1 概述 112

6.4.2 Windows 中的汉字输入原理 114

6.4.3 输入法生成器 116

6.4.4 在SDK和DDK环境下开发输入系统 117

6.5 Linux下的汉字输入系统 117

6.5.1 概述 117

6.5.2 XIM协议 118

6.5.3 输入法服务器和输入法 121

6.5.4 输入法设计 123

思考题 124

7.1.1 汉字字形及其特点 126

7.1 汉字字形概述 126

第7章 汉字字形和字形库管理技术 126

7.1.2 字形、字型和字形库 128

7.1.3 字形描述技术及其种类 129

7.2 字形描述技术 129

7.2.1 点阵字形描述技术 129

7.2.2 轮廓矢量字形描述技术 132

7.2.3 曲线轮廓字形描述技术 132

7.2.4 其他字形描述技术 134

7.3 字形的压缩和还原 135

7.3.1 字形点阵的压缩和还原 136

7.3.2 轮廓矢量字形的压缩方法 137

7.3.3 其他字形压缩技术 139

7.4 字形的放大和缩小 141

7.4.1 汉字的字号 141

7.4.3 防止字形放大和缩小失真的措施 142

7.4.2 字形放大和缩小的基本原理 142

7.4.4 字形放大缩小的应用 144

7.5 TTF字形技术 145

7.5.1 什么是TrueType 145

7.5.2 TrueType的基本原理 145

7.5.3 TrueType字体文件结构 147

7.5.4 TrueType的特点和优势 148

7.5.5 TrueType的应用 149

7.5.6 OpenType的出现 151

7.6 字库的设计和管理技术 152

7.6.1 汉字字库的基本要求 152

7.6.2 汉字库性能的评测 153

7.6.3 汉字库结构的设计 154

7.6.4 点阵字库的制作 155

7.7.1 造字程序的使用 157

7.7 汉字字库的应用 157

7.7.2 安装新字体 159

思考题 160

第8章 汉字输出技术 161

8.1 汉字的输出技术综述 161

8.2 汉字显示输出原理和基本结构 162

8.2.1 显示设备 162

8.2.2 汉字显示的原理 168

8.2.3 内码缓冲区和字形缓冲区 169

8.2.4 汉字显示输出过程 170

8.2.5 汉字终端 171

8.3.1 DOS下的汉字显示技术 171

8.3.2 Windows的汉字显示技术 173

8.4 打印输出原理和基本结构 178

8.4.1 打印设备 178

8.4.2 汉字打印概述 179

8.4.3 汉字打印原理 180

8.4.4 汉字打印过程 181

8.4.5 汉字打印机 181

思考题 182

第9章 汉语分词 183

9.1 汉语分词的概念 183

9.2 分词词典 185

9.2.1 分词词典简介 185

9.2.2 基于词属性的分词词典 186

9.2.3 基于二次索引的分词词典 188

9.3 常用的汉语分词算法 189

9.3.1 正向最大匹配算法 190

9.3.3 邻近匹配算法 191

9.3.2 逆向最大匹配算法 191

9.3.4 最短路径匹配算法 193

9.3.5 基于统计的最短路径分词算法 195

9.4 无词典分词方法 196

9.4.1 分词模型 196

9.4.2 无词典分词算法 197

9.5 交集型歧义的切分 199

9.5.1 基本概念 200

9.5.2 利用互信息和t-测试差处理交集型歧义切分 201

思考题 202

10.1 信息检索概述 203

10.1.1 信息检索的定义 203

第10章 中文信息检索 203

10.1.2 结构、半结构和非结构化文档 204

10.1.3 信息检索的任务 205

10.1.4 信息检索的评测 206

10.1.5 中文信息检索的特点 207

10.1.6 信息检索的模型 207

10.1.7 信息检索系统的结构 208

10.2 基于统计的信息检索模型 209

10.2.1 传统的布尔模型 210

10.2.2 扩展的布尔模型 210

10.2.3 向量空间模型 212

10.2.4 概率模型 218

10.3 基于语义的信息检索 225

10.3.1 自然语言处理 225

10.3.2 潜在语义索引 228

10.3.3 神经网络 234

10.4 信息检索系统介绍 235

10.5 Web信息检索 236

10.5.1 Web信息检索系统 237

10.5.2 Web信息检索的特点 238

10.5.3 搜索引擎 240

10.5.4 搜索引擎的网页分级算法 244

10.5.5 常用Web搜索引擎 248

10.5.6 搜索引擎技术的发展趋势 249

思考题 250

第11章 中文信息抽取 251

11.1 信息抽取概述 251

11.1.1 信息抽取的含义 251

11.1.3 信息抽取和信息检索 252

11.1.2 信息抽取实例 252

11.1.4 中文信息抽取的特殊性 253

11.1.5 信息抽取的历史和现状 253

11.1.6 信息抽取系统的评测 256

11.1.7 信息抽取任务 256

11.2 信息抽取系统的结构 258

11.2.1 信息抽取系统的构建方法 258

11.2.2 通用信息抽取结构 259

11.2.3 Bare Bones结构 260

11.3 信息抽取中的自然语言处理技术 261

11.3.1 命名实体识别 261

11.3.2 句法分析 261

11.3.3 文章分析和推理 262

11.3.4 知识理解 262

11.4.1 基于规则的信息抽取技术 263

11.4 信息抽取技术 263

11.4.2 隐马尔可夫模型 267

11.5 Web信息抽取 271

11.5.1基于自然语言处理方式的信息抽取 272

11.5.2 包装器方式的信息抽取 272

1 1.5.3 基于本体方式的信息抽取 273

11.5.4 基于HTML结构的信息抽取 273

11.5.5 基于Web查询的信息抽取 274

思考题 274

第12章 中文文本分类技术 . 275

12.1 文本分类的概念 275

12.1.1 什么是文本分类 275

12.1.2 文本分类的两种类型 275

12.1.4 中文文本分类 276

12.1.3 文本分类的两种方式 276

12.1.5 文本分类的国内外研究情况 277

12.2 文本特征的选择 278

12.2.1 预处理 278

12.2.2 文本特征的选择 278

12.3 文本分类方法 281

12.3.1 Rocchio方法——相似度计算方法 281

12.3.2 Na?ve Bayes——贝叶斯方法 281

12.3.3 KNN方法——K近邻方法 282

12.3.4 SVM——支持向量机 282

12.3.5 Decision Tree——决策树方法 283

12.4 选择阈值的策略 284

12.5 评估方法 285

思考题 286

参考文献 287