第1章 绪论 1
1.1 语料库的定义和作用 1
1.1.1 什么是语料库 1
1.1.2 语料库的作用 2
1.2 语料库的建立 3
1.2.1 什么是语料库标注 4
1.2.2 语料库标注的原则 5
1.2.3 建立语料库需要考虑的几个问题 6
1.2.4 语料库标注和建立的方法 10
1.2.5 语料库的质量检验 15
1.3 本书的编排 16
参考文献 17
第2章 自动分词 20
2.1 自动分词概述 20
2.1.1 自动分词的意义 20
2.1.2 自动分词的主要难点 21
2.1.3 自动分词方法简介 23
2.1.4 自动分词评测 26
2.2 分词规范 27
2.2.1 制定分词规范的目的和意义 27
2.2.2 几种典型的分词规范介绍 28
2.3 歧义字段的切分技术 31
2.3.1 歧义字段现象分析 31
2.3.2 基于统计的歧义字段排歧 33
2.4 未登录词识别 40
2.4.1 专有名词识别 41
2.4.2 新词语识别 66
2.5 缩略语识别 73
2.5.1 缩略语特征分析 75
2.5.2 缩略语资源库的建立 78
2.5.3 缩略语识别模型 79
2.5.4 缩略语的还原 82
2.6 分词一致性检验 86
2.6.1 分词不一致性现象分析 87
2.6.2 基于规则的分词一致性检验方法 90
2.6.3 基于统计的分词一致性检验方法 95
2.6.4 分词一致性检验系统 99
参考文献 102
第3章 词性标注 105
3.1 词性标注概述 106
3.1.1 词性标注的意义 106
3.1.2 词性标注的难点 107
3.1.3 词性标注方法简介 109
3.1.4 常用语料库 120
3.2 词性标注规范 122
3.2.1 制定词性标注规范的目的和意义 122
3.2.2 几种典型的词性标注规范介绍 123
3.3 兼类词的标注 130
3.3.1 什么是兼类词 130
3.3.2 典型的兼类词标注方法 133
3.4 词性标注一致性检验 139
3.4.1 问题描述和分析 139
3.4.2 一致性检验模型的建立 140
3.4.3 实验结果和分析 145
3.4.4 方法评价 145
3.5 词性标注自动校对 146
3.5.1 基于分类的词性标注自动校对 146
3.5.2 基于决策表的词性标注自动校对 148
参考文献 152
第4章 句法分析 155
4.1 完全句法分析 155
4.1.1 完全句法分析概述 155
4.1.2 形式语法体系 156
4.1.3 树库资源的建设 162
4.1.4 汉语句法分析的特点 167
4.1.5 句法分析方法 169
4.1.6 相关会议及评测 178
4.1.7 句法分析模型的评价方法 178
4.2 浅层句法分析 180
4.2.1 浅层句法分析概述 180
4.2.2 组块库的获取 181
4.2.3 组块的类型及其标注规范 185
4.2.4 组块分析方法 191
4.2.5 相关会议及评测 196
4.2.6 评价参数 197
4.3 句法树库的一致性检验 197
4.3.1 不一致现象分析 198
4.3.2 不一致的发现和消解 201
参考文献 203
第5章 语义标注语料库 206
5.1 语义标注范围 206
5.1.1 词义标注 206
5.1.2 句义标注 207
5.1.3 篇章级的语义标注 209
5.2 语义标注语料库的建立方法 209
5.2.1 传统的以人工标注为主的方法 209
5.2.2 自动构建语义标注语料库 210
5.3 主要的语义标注语料库 212
5.3.1 词义标注语料库 212
5.3.2 句义标注语料库 215
5.3.3 语篇关系标注语料库 216
5.3.4 时间关系标注语料库 218
5.3.5 信息抽取方面的语料库 223
5.3.6 生物医药领域中的语义标注语料库 224
参考文献 225
第6章 语料库评测 229
6.1 语料库评测的意义 229
6.2 语料库分词质量评价 230
6.2.1 评价样本的抽样 230
6.2.2 抽样样本的聚类及评价 231
6.2.3 实验及分析 239
6.3 语料库可用性评价 242
6.3.1 可用性评价体系 243
6.3.2 可用性评价计算 247
6.3.3 评价结果分析 250
参考文献 251
第7章 基于语料库的应用研究 253
7.1 网页信息处理 253
7.1.1 重复网页分析 253
7.1.2 基于语义的网页去重 255
7.1.3 基于网页文本结构的网页去重 260
7.2 特殊领域的信息抽取 265
7.2.1 基于HMM的农业信息抽取 266
7.2.2 基于NLP的土壤污染数据抽取 270
7.2.3 基于Bootstrapping的交通工具名识别 275
7.3 基于大规模语料库的汉语韵律边界研究 279
7.3.1 基于统计语言模型建立二叉树结构 282
7.3.2 基于树结构的汉语韵律边界预测 292
7.4 基于大规模语料库的欺骗行为检测 296
7.4.1 欺骗性语料库的建设 297
7.4.2 欺骗检测的特征线索 300
7.4.3 文本特征抽取 306
7.4.4 欺骗行为检测方法 312
7.4.5 实验结果和分析 314
参考文献 316