《藏文信息处理的原理与应用》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:高定国,珠杰编著
  • 出 版 社:成都:西南交通大学出版社
  • 出版年份:2013
  • ISBN:9787564322076
  • 页数:254 页
图书介绍:本书全面介绍了藏文信息处理的概念、藏文字符的编码方式及目前所用的几种编码,介绍了Windows、Linux等不同系统下藏文字符的键盘、语音、识别输入方式,藏文字符的输出技术等藏文信息处理的原则。以藏文信息处理的原则为基础,介绍了藏文信息检索、藏文信息抽取、藏文文本分类技术和及其翻译等藏文信息处理的应用。

第1章 概论 1

1.1 信息 1

1.2 信息处理 2

1.3 中文信息处理 3

1.3.1 汉文信息处理的发展历史 3

1.3.2 汉文信息处理的研究内容 4

1.4 藏文信息处理 6

1.4.1 藏文信息处理的概念 6

1.4.2 藏文信息处理的主要研究对象 6

1.5 藏文信息处理的发展历史 8

1.5.1 藏文字符的处理 8

1.5.2 藏语自然语言处理技术 14

1.5.3 软件本地化 16

1.5.4 应用领域的研究 18

第2章 藏文字符 20

2.1 藏字概述 20

2.2 藏字的结构 21

2.2.1 藏字的构件 21

2.2.2 藏字的结构 24

2.2.3 藏字的构字规则 25

2.2.4 现代藏字的结构方式 26

2.3 藏字的书写 29

2.3.1 藏文字体 29

2.3.2 藏文的书写规则 35

2.4 藏字的属性统计 36

2.4.1 藏字的数量 36

2.4.2 藏字字长 37

2.4.3 结构方式统计 39

2.4.4 藏字的频度统计 41

2.4.5 藏字的熵 44

2.5 现代藏字的字典序列 47

第3章 藏文字符编码体系 49

3.1 英文字符在计算机中的表示 49

3.1.1 标准ASCII码字符 50

3.1.2 扩展ASCII码 51

3.2 汉字在计算机中的表示 51

3.2.1 汉字的编码体系 51

3.2.2 ISO/IEC 2022汉字编码理论 54

3.2.3 GB 2312—80 55

3.3 ISO/IEC 10646 56

3.3.1 ISO/IEC 10646简介 56

3.3.2 UCS的总体结构 56

3.3.3 基本多文种平面BMP 58

3.3.4 BMP平面中藏文的编码段 60

3.4 Unicode编码 60

3.5 GB 13000标准 61

3.6 GB 18030标准 62

3.7 藏文编码字符集 63

3.7.1 藏文编码概况 63

3.7.2 《藏文编码字符集 基本集》 65

3.7.3 《藏文编码字符集 基本集》分析 82

3.7.4 《藏文编码字符集 扩充集》 84

3.7.5 《藏文编码字符集 扩充集》分析 88

3.8 藏字处理系统的编码 88

3.8.1 不同藏文输入系统的编码 88

3.8.2 藏文不同编码间的转化 90

第4章 支持藏文的操作系统 93

4.1 操作系统概述 93

4.2 支持藏字处理的操作系统 95

4.2.1 支持藏字处理的DOS系统 95

4.2.2 支持藏字处理的Windows系统 96

4.2.3 支持藏字处理的Linux系统 96

4.2.4 系统界面藏化的软件——藏文之星 97

第5章 藏字输入技术 98

5.1 藏字输入技术概述 98

5.1.1 藏字键盘输入 98

5.1.2 藏文语音识别输入 99

5.1.3 藏文字形识别输入 100

5.2 藏文字符键盘输入编码理论 101

5.2.1 编码中的几个概念 101

5.2.2 藏文字符键盘设计分析 102

5.2.3 藏文字符输入键盘编码理论 103

5.2.4 藏文键盘布局国家标准 105

5.3 Windows藏文字符键盘输入技术 111

5.3.1 Windows IME藏文字符输入技术 112

5.3.2 TSF输入技术 129

5.4 Linux藏文字符键盘输入技术 133

5.4.1 Linux藏文输入法的总体设计 133

5.4.2 Linux藏文输入法的消息 136

5.4.3 Linux藏文输入法引擎回调函数 138

5.4.4 Linux藏文输入法引擎接口数据结构 142

5.5 藏文字形识别输入 144

5.5.1 藏文字符识别输入的原理和方法 144

5.5.2 藏文字符识别的预处理 146

5.5.3 藏文字符识别的特征提取 153

5.5.4 藏文字符识别的分类 156

5.5.5 藏文字符识别的后处理 158

5.6 藏语语音识别输入 158

5.6.1 藏语语音识别技术的原理 160

5.6.2 藏语语音识别理论 160

第6章 藏文字形设计技术 167

6.1 藏文字形设计过程 167

6.2 藏文字形的处理 168

6.3 TTF字形技术 171

6.3.1 什么是TrueType 171

6.3.2 TrueType字体文件结构 172

6.3.3 TrueType的特点和优势 172

6.3.4 TrueType的应用 173

6.3.5 TrueType藏文字库的设计 174

6.4 OTF字形技术 174

6.4.1 OpenType概述 174

6.4.2 OpenType字库设计相关的几个概念 175

6.4.3 藏字定型器处理藏字的步骤 176

6.4.4 支持藏字的OpenType标记 177

6.4.5 OpenType中藏字的特征标记 178

6.4.6 OpenType藏文字库的设计 182

第7章 藏文信息检索 186

7.1 信息检索概述 186

7.1.1 信息检索的定义 187

7.1.2 信息检索的方式 187

7.1.3 检索系统的结构 189

7.2 信息检索的评测 190

7.3 信息检索系统的模型及算法 193

7.3.1 布尔模型 194

7.3.2 扩展的布尔模型 196

7.3.3 向量空间模型 196

7.3.4 概率模型 198

7.3.5 统计语言模型 199

7.4 Web信息检索 200

7.4.1 搜索引擎概述 200

7.4.2 搜索引擎的实现技术 200

7.4.3 搜索引擎技术的发展趋势 205

7.5 藏文数字图书馆 206

第8章 藏文信息提取 208

8.1 信息提取概述 208

8.1.1 信息提取的概念 208

8.1.2 信息提取的历史和现状 209

8.1.3 信息提取任务 211

8.1.4 信息提取系统的评测 212

8.2 信息提取系统的结构 213

8.2.1 信息提取系统的构建方法 213

8.2.2 通用信息提取结构 214

8.2.3 Bare Bones结构 215

8.3 信息提取中的自然语言处理技术 215

8.4 信息提取技术 217

8.4.1 基于规则的信息提取技术 217

8.4.2 归纳学习法 218

8.4.3 隐马尔可夫模型 218

8.5 Web信息提取技术 219

8.6 藏文信息提取初探 220

8.6.1 藏文命名实体 220

8.6.2 藏文Web信息提取 222

第9章 文本分类 223

9.1 文本分类的概念 223

9.2 文本特征的选择 224

9.2.1 文本分类过程 224

9.2.2 预处理 225

9.2.3 文本特征的选择 225

9.3 文本分类方法 226

9.3.1 Rocchio方法 226

9.3.2 N-Gram方法 227

9.3.3 语义关系的贝叶斯方法 228

9.3.4 KNN方法 230

9.3.5 支持向量机方法 231

9.3.6 决策树方法 233

9.4 评估方法 234

第10章 机器翻译 235

10.1 概述 235

10.2 机器翻译的发展历史 235

10.3 机器翻译的基本过程 237

10.4 机器翻译的基本原理 237

10.4.1 基于规则的机器翻译方法 238

10.4.2 基于实例的机器翻译方法 239

10.4.3 统计机器翻译方法 239

10.5 机器翻译的评测 240

10.5.1 人工评测方法 240

10.5.2 自动评测方法 240

10.5.3 机器翻译评测项目 242

10.6 藏汉机器翻译初探 243

10.6.1 汉藏短语抽取 243

10.6.2 藏文句子边界识别 246

参考文献 249