《中文信息处理技术 原理与应用》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:李宝安,李燕,孟庆昌编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2005
  • ISBN:7302112002
  • 页数:365 页
图书介绍:本书以简单、实用、易于理解为原则,内容力求全面、新颖、读者阅读本书之后,能够系统地了解中文信息处理的相关技术,及其典型应用系统的原理与使用。本书附录中还提供了该领域常用的各项国家标准。本书可作为大专院校的计算机、信息管理、自动化等专业的本科教材,也可以供从事中文信息系统研发工作的科研人员参考。

目 录 1

第1章 中文信息处理技术概论 1

1.1 信息处理的实质 1

1.1.1 信息和信息技术 1

1.1.2 文字信息处理 3

1.1.3 中文的文字信息处理的特点 5

1.2 汉字编码的种类与中文信息处理过程中汉字编码的变换 9

1.3 中英文兼容技术 10

1.4.1 概述 11

1.4 ASCⅡ体系的汉字内码 11

1.4.2 未占用C1区的编码方式 12

1.4.3 覆盖C1区的编码方式 15

1.5 Unicode与Unicode汉字 16

1.5.1 背景 16

1.5.2 替代标准 16

1.5.3 方法与状态 17

1.5.4 设计思想 17

1.5.5 Unicode字集 18

1.5.6 未来扩展与字符收录 20

1.5.7 代码赋值 20

1.5.8 细目 21

1.5.9 Unicode汉字 23

1.6 中文信息处理系统五层结构模型 26

1.7 中文信息处理技术发展概况 29

1.7.1 汉字标准代码 29

1.7.2 汉字操作平台 30

1.7.3 汉字输入方法 32

1.7.4 文字处理和文字编辑排版系统 33

1.7.5 中文信息检索系统技术 35

1.7.6 翻译系统技术 35

1.7.7 汉语自然语言理解 36

习题1 37

第2章 汉字编码输入原理 38

2.1 汉字和汉字属性 38

2.1.1 汉字发展及其分级 38

2.1.2 汉字的结构分析 39

2.1.3 汉字的字音和字义 41

2.1.4 汉字的排序 42

2.1.5 汉字的属性 43

2.2 汉字编码输入方法 44

2.2.1 概述 44

2.2.2 汉字键盘码的笛卡儿积集分析 46

2.2.3 汉字信息的熵值 47

2.2.4 海曼公式与汉字编码的键盘特性 48

2.2.5 汉字编码输入方法的简易评测方法 48

2.2.6 汉字编码输入方法专业评测方法 49

2.2.7 汉字键盘码的译码问题 51

2.3 有关中文输入技术现状与发展的几个问题 51

习题2 55

第3章 汉字字形存储与压缩技术 56

3.1 汉字字形存储与字形码 56

3.1.1 汉字字形的数字化 56

3.1.2 整字存储与压缩存储 57

3.2 汉字压缩存储常见方法 58

3.3 衡量压缩与还原技术的重要指标 59

3.4 汉字字形压缩的方法与技术 60

3.4.1 汉字笔画矢量存储方法 60

3.4.2 部件组字压缩方法 66

3.4.3 子信息块哈夫曼树压缩 71

3.4.4 字形轮廓压缩 74

3.4.5 黑白段与线性增量压缩 77

3.4.6 笔画轮廓压缩 79

习题3 88

4.1.1 概述 89

4.1 OCR技术概况 89

第4章 汉字识别技术 89

4.1.2 汉字识别应用领域 90

4.1.3 印刷体文字识别的研究 91

4.2 汉字识别种类 93

4.3 汉字识别原理 94

4.4 汉字识别一般方法 95

4.4.1 印刷体文字识别研究方法简介 95

4.4.2 联机手写文字识别研究方法 98

4.5 汉字识别产品介绍 106

4.5.1 汉王数字化档案馆解决方案概述 106

4.5.2 汉王数字档案资源建设 107

4.5.3 汉王数字档案的管理利用 111

4.5.4 汉王数字图书馆解决方案 114

4.6 汉字识别技术的最新进展 119

4.7 汉字识别系统的未来发展 120

习题4 122

第5章 中西文兼容处理技术 123

5.1 中西文兼容处理的概念 123

5.2 中文信息处理系统结构 124

5.2.1 汉字终端 125

5.2.2 汉字微型机系统 129

5.3.1 各种编码的辨析与比较 130

5.3 汉字的编码体系 130

5.3.2 常用编码方式的转换 134

5.3.3 中文编码的编码范围 135

5.4 系统级兼容处理方法 135

5.4.1 输入管理模块 138

5.4.2 显示管理模块 139

5.4.3 打印管理模块 141

5.4.4 字库管理模块 141

5.4.5 语音管理模块 142

5.6.1 终端仿真 143

5.6 终端级兼容处理方法 143

5.5 应用级兼容处理方法 143

5.6.2 通用仿真终端 144

5.7 UNIX操作系统的中文化与国际化 145

5.8 开放式中西文兼容操作系统设计 147

5.9 中文操作系统的现状与发展 151

5.9.1 中文外挂平台的发展 152

5.9.2 自有知识产权的操作系统COSIX 152

5.9.3 发展基于Linux的自主操作系统 153

习题5 156

6.1.1 语言的分类与自然语言 158

第6章 汉语自然语言理解 158

6.1 汉语自然语言理解概述 158

6.1.2 理解语言的过程 160

6.1.3 中文有没有文法 161

6.1.4 关于中文信息是否要求分词 161

6.1.5 中文理解的单位 161

6.2 自然语言理解国外研究现状 162

6.3 汉语自然语言理解与生成的国内研究现状 164

6.4 汉语理解与生成的难点与问题 167

6.5 自然语言理解过程的层次 168

6.6.1 汉语理解系统的组成 169

6.6 基于语法的汉语自然理解系统 169

6.6.2 基于语法的理解系统实例 172

6.7 基于语义的汉语自然理解系统 176

6.7.1 HNC理论的形成 178

6.7.2 HNC理论的基本内容 179

6.7.3 HNC理论的实现 186

6.8 基于语料库方法和统计语言模型的汉语自然理解系统 187

6.9 汉语理解研究的应用前景与发展策略 191

习题6 192

7.1 中文应用系统发展概况 193

7.1.1 我国中文信息处理技术发展的历史回顾 193

第7章 中文信息处理技术的应用 193

7.1.2 我国中文信息处理技术的发展阶段 194

7.2 中文电子印刷排版系统 197

7.2.1 系统构成 198

7.2.2 精密汉字字模和照排控制技术 199

7.2.3 字模信息还原和照排控制 201

7.2.4 激光照排机 201

7.2.5 排版软件的功能 201

7.2.6 电子印刷排版系统应发展多个层次等级 202

7.2.7 中文电子印刷排版系统技术的未来发展 203

7.2.8 电子印刷排版系统相关方案和产品介绍 204

7.3 中文信息检索系统 217

7.3.1 信息、知识、文献 217

7.3.2 文献信息资源的类型与特点 219

7.3.3 信息检索的含义与实质 222

7.3.4 信息检索的重要意义与作用 223

7.3.5 计算机检索的发展历史 223

7.3.6 计算机检索原理 225

7.3.7 计算机检索系统的构成 226

7.3.8 信息检索的类型与特点 226

7.3.9 信息检索效率的评价指标 227

7.3.10 信息检索的方式 228

7.3.11 信息检索语言 229

7.3.12 中文文本的标引 235

7.3.13 中文文献的自动分类 243

7.3.14 信息检索方法 245

7.3.15 信息检索技术 249

7.4 基于Internet的搜索引擎 252

7.4.1 搜索引擎概述 252

7.4.2 国外主要搜索引擎 255

7.4.3 中文搜索引擎比较 257

7.4.4 搜索引擎工作流程 268

7.4.5 搜索引擎的使用方法 269

7.4.6 总体评价与展望 270

7.5 中文办公自动化系统 272

7.5.1 办公自动化系统概述 272

7.5.2 中文办公软件产品介绍——WPS Office 2002技术白皮书 274

7.5.3 中文办公软件产品介绍——WPS二次开发技术白皮书 289

习题7 292

附录A 中华人民共和国国家标准GB 2312—1980《信息技术信息交换用汉字编码字符集 基本集》 294

附录B 中华人民共和国国家标准GB/T 7589—1987《信息交换用汉字编码字符集 第二辅助集》 327

附录C 中华人民共和国国家标准GB/T 7590—1987《信息交换用汉字编码字符集 第四辅助集》 331

附录D 中华人民共和国国家标准GB 13000.1—1993《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》 334

附录E 中华人民共和国国家标准GB 18030—2000《信息技术信息交换用汉字编码字符集 基本集的扩充》 357

参考文献 364