绪论 1
1 自然语言处理的根本问题 1
2 词语搭配问题的研究 5
3 本书的主要研究内容 9
第1章 词语组配的研究现状 13
1.1 汉语词语组配及其性质 13
1.2 国外词语搭配研究现状 21
1.3 国内词语搭配研究现状 22
第2章 词语搭配的自动抽取研究 27
2.1 词语搭配的抽取方法 28
2.2 搭配抽取框架的建立 39
2.3 实验及其结果 41
第3章 广义组配理论 45
3.1 广义组配理论的提出 46
3.2 语境的可计算性 47
第4章 语境计算模型RFR_SUM 55
4.1 相对词频比RFR 57
4.2 基本RFR_SUM模型 64
第5章 RFR_SUM模型在分词消歧中的应用 67
5.1 RFR_SUM模型应用于组合型消歧 67
5.2 RFR_SUM模型应用于交集型消歧 76
第6章 兼类词与多音词的消歧 87
6.1 RFR_SUM模型在兼类词消解中的应用 87
6.2 基于RFR_SUM模型的多音词的消歧 97
第7章 词义消歧研究 102
7.1 RFR_SUM模型在词义消歧中的应用 102
7.2 无需词性标注语料的词义消歧实验 111
第8章 词义消歧的二元模型及集成研究 115
8.1 BI_RFR_SUM模型 116
8.1.1 二元搭配强度和二元相对词频比(BI_RFR) 116
8.1.2 BI_RFR_SUM模型 118
8.1.3 实验及结果 120
8.2 UNI_RFR_SUM与BI_RFR_SUM的集成 124
8.3 多分类问题研究 126
第9章 超大规模语料精加工技术研究 135
9.1 问题的提出 135
9.2 现有标注软件的性能指标的计量研究 138
9.2.1 ICTCLAS系统标注结果分析 140
9.2.2 系统改进探讨 144
9.3 语料精加工的方法 147
9.3.1 词表校对法 147
9.3.2 基于简单词语组合特性的方法 149
9.3.3 基于多元组比对的方法 149
9.3.4 基于RFR_SUM模型的方法 152
9.4 初步实验结果 158
第10章 隐喻识别研究 159
10.1 隐喻研究现状 159
10.2 隐喻研究的意义 166
10.3 隐喻研究的内容和方案 167
10.4 初步的研究成果 171
结语 174
1 本研究完成的主要工作 174
2 进一步研究计划 176
主要参考文献 179
附录1 北京大学汉语文本词性标注集 189
附录2 组合型切分歧义强弱势比例 191
附录3 “从小/学”训练用例句 193
附录4 “应/用于”训练用例句 197
附录5 “应用于”测试集 203
附录6 “从小学”测试集 211
附录7 “科学”词性标注开放测试中标注错误句子 214
附录8 “黄色”词义消歧中错误句子 216
附录9 “黄金”词义消歧中错误句子 224
附录10 经改进后,“黄金”词义消歧中错误句子 235
附录11 经改进后,“黄色”词义消歧中错误句子 238
附录12 “黄色”词义开放测试错误句子 240
附录13 “黄金”词义开放测试错误句子 241
附录14 “分子”分类错误的句子 243
附录15 “材料”分类错误的句子 244
附录16 “着/u”和“着/v”校对出错误的句子 246
附录17 “本书/r”和“本/q书/n”校对出错误的句子 251
后记 253