第1部分 预备知识 3
第1章 概论 3
1.1 自然语言处理与中文信息处理 3
1.1.1 自然语言处理 3
1.1.2 中文信息处理 4
1.2 研究内容 6
1.3 应用领域 8
第2章 预备知识 9
2.1 数学基础 9
2.1.1 概率论 9
2.1.2 随机过程 11
2.1.3 信息论 18
2.1.4 形式语言与自动机 21
2.2 语言学基础 24
2.2.1 计算语言学概述 24
2.2.2 语素和词 24
2.2.3 句法与篇章语法 25
2.2.4 词义与句义 27
第2部分 词法分析 33
第3章 自动分词概述 33
3.1 自动分词 33
3.1.1 分词规范 33
3.1.2 自动分词的研究内容及意义 34
3.1.3 自动分词方法 34
3.2 分词歧义问题 35
3.3 未登录词问题 37
3.4 自动分词评测 39
第4章 基于词典的分词方法 43
4.1 分词词典 43
4.1.1 关于分词词典的构造 43
4.1.2 基于词属性的分词词典 44
4.1.3 基于逐字二分的分词词典 45
4.2 机械分词方法 46
4.2.1 正向最大匹配算法 46
4.2.2 逆向最大匹配算法 47
4.2.3 邻近匹配算法 48
4.2.4 最短路径匹配算法 49
4.3 基于规则的分词方法 51
4.3.1 分词预处理中的规则 51
4.3.2 分词规则 52
4.4 中文姓名切分 54
4.4.1 切分姓名中的当用资源 54
4.4.2 同源对表、互斥对表及其操作 57
4.4.3 姓名左右边界的确定 57
4.4.4 屏蔽与恢复 58
4.4.5 同源对表和互斥对表的校正规则 58
4.4.6 概率再筛选 59
4.4.7 中文姓名切分系统 59
第5章 基于语料库的分词方法 61
5.1 语料库 61
5.1.1 语料库概述 61
5.1.2 语料库加工规范 65
5.1.3 现代汉语语料库构建实例 71
5.2 基于统计的分词方法 72
5.2.1 统计分词概述 72
5.2.2 统计分词消歧 73
5.2.3 统计未登录词获取 76
5.2.4 统计分词模型 83
5.3 基于机器学习的分词方法 85
5.3.1 最大熵分词 86
5.3.2 条件随机场分词 88
第2部分习题 91
第3部分 语法分析 95
第6章 自动词性标注 95
6.1 词性标注概述 95
6.1.1 词性标注 95
6.1.2 词性标记规范 96
6.1.3 词性消歧 97
6.1.4 词性标注评测 98
6.2 基于统计的词性标注方法 99
6.2.1 统计模型的训练 99
6.2.2 马尔可夫模型标注方法 100
6.2.3 隐马尔可夫模型标注方法 103
6.3 基于规则的词性标注方法 106
6.3.1 按兼类词搭配关系构造的规则 106
6.3.2 按词语结构获取的规则 107
6.4 其他标注方法 108
6.4.1 基于规则和统计相结合的标注方法 108
6.4.2 基于条件随机场的词性标注方法 109
6.4.3 词性标注中的未登录词处理方法 109
第7章 语法表示方法 110
7.1 语法表示概述 110
7.2 形式语法描述 110
7.2.1 重写规则 110
7.2.2 转移网络 112
7.3 短语结构语法 113
7.4 依存语法 115
第8章 句法分析方法 117
8.1 句法分析概述 117
8.1.1 句法分析 117
8.1.2 结构歧义 118
8.1.3 句法分析评测 119
8.2 基于规则的句法分析方法 120
8.2.1 自顶向下句法分析 121
8.2.2 自底向上句法分析 122
8.2.3 线图句法分析 124
8.2.4 转移网络句法分析 126
8.3 基于统计的句法分析方法 129
8.3.1 概率上下文无关文法分析 129
8.3.2 依存句法分析 137
第3部分习题 142
第4部分 语义分析 147
第9章 概念标注 147
9.1 概念标注概述 147
9.2 语言知识库 148
9.3 概念标注方法 150
第10章 语义表示 154
10.1 语义表示概述 154
10.2 语义逻辑表示法 155
10.2.1 一阶谓词演算 155
10.2.2 基本逻辑形式语言 157
10.2.3 逻辑形式中的歧义表示 159
10.2.4 论旨角色 160
10.3 语义网络表示法 161
10.4 语义框架表示法 162
第11章 语义分析 166
11.1 语义分析概述 166
11.2 基于语义特征的语义分析 167
11.2.1 组合理论 167
11.2.2 λ表达式与语义解释 168
11.2.3 带语义解释的简单语法和词典 170
11.2.4 语义角色 172
11.2.5 特征合一的语义解释 173
11.3 基于语法关系的语义分析 176
11.4 基于模板匹配的语义分析 179
11.5 语义消歧 183
11.5.1 语义消歧概述 183
11.5.2 基于规则的语义消歧 184
11.5.3 基于统计的语义消歧 193
第4部分习题 199
第5部分 应用与技术 203
第12章 文本分类 203
12.1 文本分类概述 203
12.1.1 自动文本分类定义 203
12.1.2 文本分类任务的特点 204
12.1.3 文本分类基本实现途径 204
12.1.4 文本分类的组成 205
12.1.5 文本分类的应用领域 206
12.1.6 国内外研究现状 207
12.2 文本分类方法 208
12.2.1 文本表示与文本特征选择 208
12.2.2 分类器设计 211
12.2.3 分类器的阈值选择 215
12.3 文本分类评测 216
12.3.1 单类赋值 216
12.3.2 多类排序 218
第13章 信息检索 219
13.1 信息检索概述 219
13.1.1 信息检索的对象和任务 219
13.1.2 信息检索的评测 220
13.1.3 信息检索模型 220
13.1.4 中文信息检索的特点 222
13.2 基于统计的信息检索模型 222
13.2.1 布尔模型及其扩展 222
13.2.2 向量空间模型 224
13.2.3 概率模型 232
13.3 基于语义的信息检索 239
13.3.1 基于NLP的方法 239
13.3.2 潜在语义索引 241
13.3.3 基于神经网络的信息检索 246
13.4 信息检索技术评测 247
13.4.1 文本检索会议 247
13.4.2 亚洲语言信息检索评测会议 248
13.4.3 863信息检索评测项目 248
13.5 Web信息检索 249
13.5.1 Web信息检索的特点 249
13.5.2 搜索引擎 251
第14章 问答系统 258
14.1 问答系统概述 258
14.1.1 问答系统的发展 258
14.1.2 问答系统的定义 259
14.1.3 问答系统的研究趋势 260
14.2 关键技术 260
14.2.1 关键词抽取 261
14.2.2 关键词扩展 263
14.3 问答系统评测 264
14.4 Watson问答系统 265
第15章 自动文摘 267
15.1 自动文摘概述 267
15.1.1 文摘的定义 267
15.1.2 文摘的分类 268
15.1.3 自动文摘的意义 269
15.2 自动文摘的方法 269
15.2.1 基于统计的自动文摘 269
15.2.2 基于理解的自动文摘 270
15.2.3 基于信息抽取的自动文摘方法 271
15.2.4 基于结构的自动文摘 271
15.3 自动文摘系统评测 272
15.3.1 内部评价 272
15.3.2 外部评价 273
15.4 自动文摘系统 273
第5部分习题 275
附录A 北京大学计算语言学研究所汉语词性标注标记集 276
附录B 哈尔滨工业大学CDT依存句法标注体系 278
参考文献 279