第1章 计算语言学概论 1
1.1 计算语言学的定义 1
1.2 计算语言学的发展历程 1
1.3 计算语言学的研究范畴 4
1.4 计算语言学的研究方法 5
1.5 计算语言学与藏语研究 6
1.6 计算语言学的发展趋势 8
第2章 计算语言学基础知识 10
2.1 概率统计基础 10
2.1.1 事件和概率 10
2.1.2 随机变量与分布函数 12
2.1.3 随机变量的数字特征 12
2.1.4 最大似然估计 13
2.2 信息论基础 14
2.2.1 信息的最优编码设计 14
2.2.2 信息熵 15
2.2.3 噪声信道模型 18
2.3 隐马尔可夫模型 19
2.3.1 马尔可夫过程 19
2.3.2 隐马尔可夫过程 21
2.3.3 向前算法和向后算法 22
2.3.4 韦特比(Viterbi)算法 25
2.3.5 Baum-Welch算法 27
第3章 形式语法与自动机理论 29
3.1 形式语法 29
3.1.1 形式定义 29
3.1.2 形式语法分类 30
3.2 自动机理论 31
3.2.1 自动机概述 31
3.2.2 自动机术语 32
3.2.3 形式描述 32
3.2.4 有限自动机的分类 33
3.2.5 有限自动机的扩展 34
第4章 藏文信息处理 36
4.1 藏文概述 36
4.2 藏文字的构件 37
4.3 藏文的拼与写 38
4.3.1 藏文拼音规则 38
4.3.2 藏文虚词形态规则 39
4.3.3 藏文字体 41
4.4 藏文编码与标准 41
4.4.1 编码标准 41
4.4.2 键盘及字库标准 47
第5章 藏文自动分词 48
5.1 藏文自动分词概述 48
5.1.1 藏文自动分词的意义和作用 49
5.1.2 藏文文本的切分特点 49
5.1.3 藏文自动分词的难点 51
5.2 藏文分词规范 52
5.2.1 制定藏文分词规范的目标 53
5.2.2 藏文分词规范简介 53
5.3 藏文分词词典 54
5.3.1 藏文分词词典的机制 54
5.3.2 基于词属性的藏文分词词典 55
5.4 藏文分词方法 57
5.4.1 基于规则的分词方法 57
5.4.2 基于统计的分词方法 61
5.4.3 基于规则和统计的方法利弊 63
5.4.4 专家系统分词法 64
5.4.5 基于神经网络的分词方法 64
5.5 藏文分词歧义理论 65
5.5.1 藏文分词歧义的类型 65
5.5.2 歧义消解的方法 66
5.6 藏文未登录词 67
5.6.1 藏文未登录词分类 67
5.6.2 藏文未登录词的识别方法 67
第6章 藏文词类自动标注 69
6.1 藏文词类划分的意义 69
6.2 藏文词类划分的理论依据 69
6.3 藏文词类体系 71
6.4 藏文词类及标记集规范 73
6.4.1 适用范围 73
6.4.2 词类及标记集规范确定原则 73
6.5 藏文词性自动标注 74
6.5.1 词性标注 74
6.5.2 难点分析 74
6.6 词性标注方法 75
6.6.1 基于规则的方法 75
6.6.2 基于统计的方法 75
6.6.3 规则与统计相结合的方法 75
6.7 HMM在藏文词性标注中的应用 76
6.7.1 先验概率和条件概率 76
6.7.2 HMM的三个基本问题 77
6.7.3 Viterbi算法 78
6.7.4 HMM与词性标注的关系 80
第7章 藏文语料库与词汇知识库 82
7.1 语料库的定义 82
7.2 语料库的作用 83
7.2.1 对藏语语言研究的作用 83
7.2.2 对藏语自然语言处理的作用 83
7.2.3 多学科综合研究 83
7.3 语料库的发展简史 84
7.3.1 第一代(20世纪70—80年代) 84
7.3.2 第二代(20世纪80—90年代) 84
7.3.3 第三代(20世纪90年代至今) 85
7.4 国内语料库建设概况 85
7.5 语料库的分类 86
7.6 藏文语料库的设计 87
7.7 藏文语料库构建原则 87
7.8 藏文语料库的应用 88
7.9 藏文语料库的标记及其规范 88
7.10 藏文语料库的标记框架 89
7.10.1 藏文语料库中文本属性的标记 90
7.10.2 藏语文本结构信息的标记 92
7.10.3 段落标记 93
7.10.4 句子标记 93
7.10.5 词汇标记 94
7.11 藏文语料库框架标记范例 94
7.12 词汇知识库 95
7.12.1 FrameNet 96
7.12.2 WordNet 97
7.12.3 GKB 97
7.12.4 HowNet 98
第8章 藏语句法知识的表示 99
8.1 基于短语结构的藏语句法形式化 99
8.1.1 短语结构语法概述 99
8.1.2 短语结构语法构成要素 101
8.2 基于范畴语法的藏语句法形式化 103
8.2.1 范畴语法概述 103
8.2.2 范畴语法的基本思想和规则 104
8.2.3 范畴语法与藏语句法形式化 104
8.3 基于词汇功能的藏语句法形式化 105
8.3.1 词汇功能语法概述 105
8.3.2 词汇功能语法理论框架 106
8.3.3 LFG两种语法层次结构 107
8.4 基于功能合一的藏语句法形式化 118
8.4.1 复杂特征集的定义 118
8.4.2 藏语词汇的定义描述 119
8.4.3 藏语句法规则的描述 120
8.4.4 藏语语义规则的描述 122
8.4.5 藏语句子合一运算的描述 123
8.5 基于依存的藏语句法形式化 124
8.5.1 依存语法概述 124
8.5.2 依存语法理论 125
8.5.3 依存语法的定义 126
8.5.4 依存结构图 126
第9章 藏语句法分析 129
9.1 句法分析概述 129
9.2 基于规则的分析方法 130
9.2.1 自顶向下分析算法(top-down parsing method) 131
9.2.2 自底向上分析算法(bottom-up parsing method) 133
9.2.3 富田算法(Tomita algorithm) 135
9.2.4 左角分析法(left-corner method) 136
9.2.5 CYK算法 137
9.2.6 Earley算法 137
9.3 基于统计的分析方法 138
9.3.1 基于概率上下文无关文法模型 139
9.3.2 上下文依存的概率模型 141
9.3.3 词汇语法的概率模型 141
9.3.4 基于历史的模型 142
第10章 藏语语义知识的表示 143
10.1 语义和逻辑形式 143
10.2 基本逻辑形式语言 146
10.3 动词与逻辑形式中的状态 148
10.4 框架知识表示 150
10.4.1 框架知识概述 150
10.4.2 框架知识结构与组织 150
10.4.3 框架知识语义关系 152
第11章 藏语语义分析 154
11.1 藏语语义成分分析 154
11.1.1 义素分析概述 154
11.1.2 义素的基本概念 154
11.1.3 义素分析的原则 155
11.1.4 义素分析的方法 156
11.2 藏语语义特征分析 157
11.2.1 语义特征的定义 157
11.2.2 语义特征分析法的产生 158
11.2.3 义素分析与语义特征分析的区别 158
11.2.4 语义特征分析法 159
11.2.5 语义特征分析法的类别 160
11.3 配价语法与藏语语义分析 160
11.3.1 配价理论的提出 160
11.3.2 配价的概念及表示方法 161
11.3.3 配价的层次 162
11.3.4 配价成分的定价原则及理论内涵 163
11.3.5 配价理论与藏语格语法 164
11.3.6 藏语动词配价 164
11.3.7 藏语形容词配价 166
11.3.8 藏语语义配价 167
11.4 格语法与藏语格语义分析 167
11.4.1 格语法理论的提出 167
11.4.2 格的定义 168
11.4.3 格语法的理论框架 168
11.4.4 表层现象 170
11.4.5 藏语格的基本概念 170
11.4.6 藏语格的语法信息描述 171
11.4.7 藏语格的功能结构分析 172
11.4.8 藏语格的语义信息分析 173
11.5 语义解释与组合理论 174
11.5.1 组合理论 174
11.5.2 λ表达式与语义解释 175
11.6 带语义解释的简单语法和词典 177
11.7 特征合一语义解释 181
11.8 语法关系与语义分析 183
11.9 语义语法与语义分析 186
第12章 藏语歧义消解 189
12.1 藏语语义关系与真歧义 189
12.2 语义网络 191
12.3 统计词义消歧 194
12.4 搭配与互信息 197
附录 199
附录1 信息处理用藏语词类标记集规范 199
附录2 信息处理用现代藏文分词规范 217
参考文献 228