第1章 概论 1
1.1 信息 1
1.2 信息处理 2
1.3 中文信息处理 3
1.3.1 汉文信息处理的发展历史 3
1.3.2 汉文信息处理的研究内容 4
1.4 藏文信息处理 6
1.4.1 藏文信息处理的概念 6
1.4.2 藏文信息处理的主要研究对象 6
1.5 藏文信息处理的发展历史 8
1.5.1 藏文字符的处理 8
1.5.2 藏语自然语言处理技术 14
1.5.3 软件本地化 16
1.5.4 应用领域的研究 18
第2章 藏文字符 20
2.1 藏字概述 20
2.2 藏字的结构 21
2.2.1 藏字的构件 21
2.2.2 藏字的结构 24
2.2.3 藏字的构字规则 25
2.2.4 现代藏字的结构方式 26
2.3 藏字的书写 29
2.3.1 藏文字体 29
2.3.2 藏文的书写规则 35
2.4 藏字的属性统计 36
2.4.1 藏字的数量 36
2.4.2 藏字字长 37
2.4.3 结构方式统计 39
2.4.4 藏字的频度统计 41
2.4.5 藏字的熵 44
2.5 现代藏字的字典序列 47
第3章 藏文字符编码体系 49
3.1 英文字符在计算机中的表示 49
3.1.1 标准ASCII码字符 50
3.1.2 扩展ASCII码 51
3.2 汉字在计算机中的表示 51
3.2.1 汉字的编码体系 51
3.2.2 ISO/IEC 2022汉字编码理论 54
3.2.3 GB 2312—80 55
3.3 ISO/IEC 10646 56
3.3.1 ISO/IEC 10646简介 56
3.3.2 UCS的总体结构 56
3.3.3 基本多文种平面BMP 58
3.3.4 BMP平面中藏文的编码段 60
3.4 Unicode编码 60
3.5 GB 13000标准 61
3.6 GB 18030标准 62
3.7 藏文编码字符集 63
3.7.1 藏文编码概况 63
3.7.2 《藏文编码字符集 基本集》 65
3.7.3 《藏文编码字符集 基本集》分析 82
3.7.4 《藏文编码字符集 扩充集》 84
3.7.5 《藏文编码字符集 扩充集》分析 88
3.8 藏字处理系统的编码 88
3.8.1 不同藏文输入系统的编码 88
3.8.2 藏文不同编码间的转化 90
第4章 支持藏文的操作系统 93
4.1 操作系统概述 93
4.2 支持藏字处理的操作系统 95
4.2.1 支持藏字处理的DOS系统 95
4.2.2 支持藏字处理的Windows系统 96
4.2.3 支持藏字处理的Linux系统 96
4.2.4 系统界面藏化的软件——藏文之星 97
第5章 藏字输入技术 98
5.1 藏字输入技术概述 98
5.1.1 藏字键盘输入 98
5.1.2 藏文语音识别输入 99
5.1.3 藏文字形识别输入 100
5.2 藏文字符键盘输入编码理论 101
5.2.1 编码中的几个概念 101
5.2.2 藏文字符键盘设计分析 102
5.2.3 藏文字符输入键盘编码理论 103
5.2.4 藏文键盘布局国家标准 105
5.3 Windows藏文字符键盘输入技术 111
5.3.1 Windows IME藏文字符输入技术 112
5.3.2 TSF输入技术 129
5.4 Linux藏文字符键盘输入技术 133
5.4.1 Linux藏文输入法的总体设计 133
5.4.2 Linux藏文输入法的消息 136
5.4.3 Linux藏文输入法引擎回调函数 138
5.4.4 Linux藏文输入法引擎接口数据结构 142
5.5 藏文字形识别输入 144
5.5.1 藏文字符识别输入的原理和方法 144
5.5.2 藏文字符识别的预处理 146
5.5.3 藏文字符识别的特征提取 153
5.5.4 藏文字符识别的分类 156
5.5.5 藏文字符识别的后处理 158
5.6 藏语语音识别输入 158
5.6.1 藏语语音识别技术的原理 160
5.6.2 藏语语音识别理论 160
第6章 藏文字形设计技术 167
6.1 藏文字形设计过程 167
6.2 藏文字形的处理 168
6.3 TTF字形技术 171
6.3.1 什么是TrueType 171
6.3.2 TrueType字体文件结构 172
6.3.3 TrueType的特点和优势 172
6.3.4 TrueType的应用 173
6.3.5 TrueType藏文字库的设计 174
6.4 OTF字形技术 174
6.4.1 OpenType概述 174
6.4.2 OpenType字库设计相关的几个概念 175
6.4.3 藏字定型器处理藏字的步骤 176
6.4.4 支持藏字的OpenType标记 177
6.4.5 OpenType中藏字的特征标记 178
6.4.6 OpenType藏文字库的设计 182
第7章 藏文信息检索 186
7.1 信息检索概述 186
7.1.1 信息检索的定义 187
7.1.2 信息检索的方式 187
7.1.3 检索系统的结构 189
7.2 信息检索的评测 190
7.3 信息检索系统的模型及算法 193
7.3.1 布尔模型 194
7.3.2 扩展的布尔模型 196
7.3.3 向量空间模型 196
7.3.4 概率模型 198
7.3.5 统计语言模型 199
7.4 Web信息检索 200
7.4.1 搜索引擎概述 200
7.4.2 搜索引擎的实现技术 200
7.4.3 搜索引擎技术的发展趋势 205
7.5 藏文数字图书馆 206
第8章 藏文信息提取 208
8.1 信息提取概述 208
8.1.1 信息提取的概念 208
8.1.2 信息提取的历史和现状 209
8.1.3 信息提取任务 211
8.1.4 信息提取系统的评测 212
8.2 信息提取系统的结构 213
8.2.1 信息提取系统的构建方法 213
8.2.2 通用信息提取结构 214
8.2.3 Bare Bones结构 215
8.3 信息提取中的自然语言处理技术 215
8.4 信息提取技术 217
8.4.1 基于规则的信息提取技术 217
8.4.2 归纳学习法 218
8.4.3 隐马尔可夫模型 218
8.5 Web信息提取技术 219
8.6 藏文信息提取初探 220
8.6.1 藏文命名实体 220
8.6.2 藏文Web信息提取 222
第9章 文本分类 223
9.1 文本分类的概念 223
9.2 文本特征的选择 224
9.2.1 文本分类过程 224
9.2.2 预处理 225
9.2.3 文本特征的选择 225
9.3 文本分类方法 226
9.3.1 Rocchio方法 226
9.3.2 N-Gram方法 227
9.3.3 语义关系的贝叶斯方法 228
9.3.4 KNN方法 230
9.3.5 支持向量机方法 231
9.3.6 决策树方法 233
9.4 评估方法 234
第10章 机器翻译 235
10.1 概述 235
10.2 机器翻译的发展历史 235
10.3 机器翻译的基本过程 237
10.4 机器翻译的基本原理 237
10.4.1 基于规则的机器翻译方法 238
10.4.2 基于实例的机器翻译方法 239
10.4.3 统计机器翻译方法 239
10.5 机器翻译的评测 240
10.5.1 人工评测方法 240
10.5.2 自动评测方法 240
10.5.3 机器翻译评测项目 242
10.6 藏汉机器翻译初探 243
10.6.1 汉藏短语抽取 243
10.6.2 藏文句子边界识别 246
参考文献 249