第1章 概论 1
1.1 自然语言处理与中文信息处理 1
1.1.1 自然语言处理 1
1.1.2 自然语言处理研究的历史、现状及应用 3
1.1.3 中文信息处理 9
1.2 自然语言处理的新趋势 11
1.3 本书内容组织 15
第一部分 词法分析 18
第2章 自动分词 18
2.1 关于自动分词 18
2.1.1 分词规范 18
2.1.2 自动分词的研究内容及意义 19
2.2 分词词典 19
2.2.1 关于分词词典的构造 19
2.2.2 基于词属性的分词词典 20
2.3 机械分词方法 22
2.3.1 正向最大匹配算法 22
2.3.2 逆向最大匹配算法 23
2.3.3 邻近匹配算法 24
2.3.4 最短路径匹配算法 26
2.3.5 基于统计的最短路径分词算法 27
第3章 分词歧义消解 29
3.1 关于分词歧义 29
3.1.1 分词歧义的类型 29
3.1.2 歧义字段的发现 34
3.2 基于规则的分词消歧 34
3.2.1 分词预处理中的规则 34
3.2.2 分词规则 35
3.3 基于统计方法的分词消歧 37
3.3.1 基于词频的消歧方法 37
3.3.2 基于互信息和t-测试差的歧义切分方法 37
第4章 未登录词获取 41
4.1 关于未登录词 41
4.2 基于统计学的未登录词获取方法 42
4.2.1 基于频率的方法 42
4.2.2 基于均值和方差的方法 45
4.2.3 基于假设检验的方法 46
4.2.4 基于互信息的方法 52
4.3 中文姓名的自动辨识 54
4.3.1 辨识姓名中的当用资源 54
4.3.2 同源对表、互斥对表及其操作 57
4.3.3 姓名左右边界的确定 57
4.3.4 屏蔽与恢复 58
4.3.5 同源对表、互斥对表的规则校正 58
4.3.6 概率再筛选 59
4.3.7 中文姓名辨识系统 59
4.4 中文统计词汇获取 60
4.5 无词典分词方法 62
4.5.1 分词模型 62
4.5.2 无词典分词算法 63
第5章 语料库的构建 66
5.1 关于语料库 66
5.1.1 国外语料库概况 66
5.1.2 中文语料库建设状况 68
5.2 汉语语料库的基本加工规范 69
5.2.1 生语料与熟语料 69
5.2.2 汉语语料库加工思路 71
5.2.3 汉语语料库加工规范 72
5.2.4 汉语文本词性标注标记集 74
5.3 建设语料库的其他问题 76
5.3.1 建设语料库的软硬件基础 76
5.3.2 通用标记语言SGML 77
第一部分习题 78
第二部分 语法处理 81
第6章 自动标注 81
6.1 关于自动标注 81
6.1.1 自动标注 81
6.1.2 歧义的消除 82
6.1.3 模型的训练 84
6.1.4 词典 85
6.2 马尔可夫模型和隐马尔可夫模型 86
6.2.1 离散马尔可夫过程 86
6.2.2 隐马尔可夫模型 88
6.2.3 HMM的三个基本问题 89
6.2.4 问题1的解法 90
6.2.5 问题2的解法 92
6.2.6 问题3的解法 93
6.3 马尔可夫模型标注器 94
6.3.1 概率模型 94
6.3.2 Viterbi算法 97
6.4 隐马尔可夫模型标注器 98
6.4.1 隐马尔可夫模型标注算法 98
6.4.2 隐马尔可夫模型训练中的初始化的作用 100
第7章 语法表示 101
7.1 关于语法表示 101
7.2 形式语法描述 101
7.3 短语结构语法 104
7.4 转移网络 105
7.5 短语结构与句法树 107
第8章 语法分析 109
8.1 关于语法分析 109
8.2 基于符号串的句法分析 110
8.3 自底向上的图句法分析 115
8.4 自顶向下的图句法分析 123
8.5 基于转移网络的句法分析 125
8.6 移进归约句法分析器 129
8.6.1 确定句法分析器的状态 129
8.6.2 移进归约句法分析器 131
8.6.3 移进归约句法分析器与歧义性 134
8.6.4 词汇的歧义性 134
8.6.5 有歧义的句法分析状态 135
8.7 概率上下文无关文法分析 136
8.7.1 概率上下文无关文法的一些特征 138
8.7.2 概率上下文无关文法的问题 139
8.7.3 词串概率的计算 141
8.7.4 内部-外部算法的问题 147
第二部分习题 148
第三部分 语义分析 153
第9章 语义表示 153
9.1 关于语义表示 153
9.2 语义的逻辑表示方法 155
9.2.1 一阶谓词演算 155
9.2.2 基本逻辑形式语言 156
9.2.3 逻辑形式中的歧义表示 158
9.3 论旨角色 159
9.4 语义网络表示法 161
9.5 框架表示法 162
9.6 量词的处理 165
第10章 语义分析 167
10.1 关于语义分析 167
10.2 组合理论与语义解释 168
10.2.1 组合理论 168
10.2.2 λ表达式与语义解释 169
10.3 基于语义特征的解释方法 171
10.3.1 带语义解释的简单语法和词典 171
10.3.2 语义角色 175
10.3.3 特征合一的语义解释 176
10.4 基于语法关系的语义分析 179
10.5 语义语法 182
10.6 模板匹配 184
10.7 语义驱动的分析技术 188
第11章 语义消歧 192
11.1 关于语义歧义 192
11.2 选择限制法消歧 192
11.2.1 选择限制 192
11.2.2 选择限制与句法分析结合的消歧方法 197
11.3 语义网络 200
11.4 统计词义消歧 203
11.5 统计语义优选 205
第三部分习题 208
第四部分 应用与技术 214
第12章 文本分类 214
12.1 关于文本分类 214
12.1.1 自动文本分类定义 214
12.1.2 文本分类任务的特点 215
12.1.3 文本分类基本实现途径 215
12.1.4 文本分类的组成 216
12.1.5 文本分类的应用领域 217
12.1.6 国内外研究现状 219
12.2 文本分类方法 219
12.2.1 文本表示与文本特征选择 219
12.2.2 分类器设计 224
12.2.3 分类器的阈值选择 228
12.3 文本分类的评测 228
12.3.1 单类赋值 229
12.3.2 多类排序 230
第13章 信息检索 231
13.1 关于信息检索 231
13.1.1 信息检索的对象和任务 231
13.1.2 信息检索的评测 232
13.1.3 信息检索模型及其设计 233
13.1.4 应用领域 234
13.1.5 中文信息检索的特点 235
13.2 基于统计学的信息检索模型 235
13.2.1 布尔模型 235
13.2.2 向量空间模型 238
13.2.3 概率模型 246
13.3 基于语义的信息检索 254
13.3.1 基于NLP的方法 254
13.3.2 潜在语义索引 256
13.3.3 神经网络 262
13.4 典型信息检索系统 263
13.5 信息检索技术前沿 264
13.5.1 基于Web的信息检索 264
13.5.2 搜索引擎 266
第14章 信息抽取 279
14.1 关于信息抽取 279
14.2 半结构化文本的信息抽取技术 287
14.2.1 基于隐马尔可夫模型的信息提取 287
14.2.2 基于规则的信息抽取方法 291
14.3 典型信息抽取系统 294
14.3.1 AutoSlog信息抽取系统 294
14.3.2 PALKA 297
14.4 Web信息抽取 299
14.4.1 包装器方式的信息抽取 300
14.4.2 基于本体方式的信息抽取 301
14.4.3 基于Web查询的信息抽取 302
第15章 自动文摘 304
15.1 关于自动文摘 304
15.1.1 文摘的定义 304
15.1.2 文摘的分类 305
15.1.3 自动文摘的意义 308
15.2 自动文摘的方法 308
15.2.1 基于统计的自动文摘 309
15.2.2 基于理解的自动文摘 310
15.2.3 基于信息抽取的自动文摘方法 311
15.2.4 基于结构的自动文摘 311
15.3 自动文摘系统的评测 312
15.3.1 内部评价 313
15.3.2 自动文摘的外部评价 314
15.3.3 评测方法的研究现状 314
15.4 自动文摘系统 315
第四部分习题 317
参考文献 319