前言 1
1 引言 1
1.1 跨语言信息检索研究的背景和意义 1
1.1.1 现实的背景 1
1.1.2 研究意义 3
1.2 国内外研究现状分析 7
1.2.1 国外跨语言信息检索研究概况 7
1.2.2 国内跨语言信息检索研究概况 19
1.2.3 国内外跨语言信息检索中存在的不足和问题 23
1.3 本书的研究方法 23
2 跨语言信息检索概述 25
2.1 跨语言信息检索的基本框架 25
2.2 跨语言信息检索的类型 28
2.2.1 基于翻译方法的分类 28
2.2.2 基于翻译工具的分类 34
2.2.3 基于检索媒体的分类 43
2.2.4 基于检索语言的分类 45
2.3 跨语言信息检索的应用领域 46
2.3.1 在数字图书馆中的应用 46
2.3.2 在科学研究中的应用 48
2.3.3 在电子商务中的应用 49
2.3.4 在跨文化交流中的应用 49
2.4 跨语言信息检索与机器翻译的联系与区别 51
3 跨语言信息检索模型 52
3.1 布尔模型 54
3.1.1 经典布尔模型 55
3.1.2 扩展布尔模型 57
3.2 向量空间模型 59
3.2.1 经典向量空间模型 60
3.2.2 广义向量空间模型 62
3.2.3 潜在语义索引模型 64
3.3 概率模型 66
3.3.1 经典概率模型 67
3.3.2 推理网络模型 68
3.4 统计语言模型 69
3.4.1 n-gram模型 71
3.4.2 隐马尔可夫模型 72
3.4.3 决策树模型 74
3.4.4 最大熵模型 75
3.5 本体模型 77
4 语言转换前的文字信息预处理 80
4.1 翻译知识与翻译资源的规范化 80
4.1.1 跨语言信息检索的资源与翻译工具 81
4.1.2 翻译资源的构建与规范化 86
4.2 语言识别技术 88
4.2.1 文本语言识别技术 88
4.2.2 语音识别技术 88
4.3 中文信息的基本特点 90
4.3.1 汉语的基本特点 90
4.3.2 基于汉字的文本分割技术 93
4.3.3 中文分词 94
4.3.4 中文信息标引 101
4.3.5 中文信息抽取 102
4.3.6 预处理成果及其主要问题 104
4.4 英语词法分析 107
4.4.1 英语单词的识别(tokenization ) 108
4.4.2 英语单词的词形分析(lemmatization) 109
4.4.3 英语词法在跨语言应用中的主要成果及问题 111
5 语言转换中的语言歧义问题 113
5.1 查询翻译中存在的主要问题 113
5.1.1 歧义性 114
5.1.2 未登录词 118
5.1.3 短语的识别与翻译 119
5.1.4 翻译资源中的错误 120
5.2 歧义的解决方法 120
5.2.1 基于词性标注的词义消歧 121
5.2.2 基于主题词表的词义消歧 124
5.2.3 虚拟语境消除目标查询的多义性 126
5.2.4 基于互信息的词义消歧 126
5.2.5 基于浅层句法分析的短语识别 129
5.2.6 基于查询扩展的词义消歧 131
5.2.7 基于语料库的词义消歧 136
5.2.8 专有名词的音译 140
5.2.9 基于机读词典的词义消歧 144
6 跨语言本体的构建及其在语言转换中的应用 147
6.1 本体概述 147
6.1.1 本体的定义 147
6.1.2 本体的组成 148
6.1.3 本体的分类 148
6.2 本体在查询翻译消歧中的应用 150
6.2.1 概述 150
6.2.2 主要事例 153
6.3 常用的本体 158
6.3.1 WordNet 158
6.3.2 HowNet(知网) 160
6.3.3 SUMO 162
6.4 跨语言本体构建研究 165
6.4.1 EuroWordNet 166
6.4.2 CCD 168
6.4.3 Sinica BOW 171
6.5 中英双语知识本体与领域检索接口雏形 173
7 跨语言信息检索系统评价 178
7.1 跨语言信息检索评价模型 179
7.2 效率评价指标 180
7.2.1 查全率与查准率 180
7.2.2 调和中数 182
7.2.3 E测度 182
7.2.4 显著性测试 183
7.3 现有测试平台运行状况分析 183
7.3.1 TREC 185
7.3.2 NTCIR 186
7.3.3 CLEF 187
7.4 跨语言信息检索测试集 188
7.4.1 测试文档集合 188
7.4.2 检索问题集合 191
7.4.3 参考答案集合 192
8 基于查询翻译的跨语言信息检索系统案例 193
8.1 基本原理与模型 195
8.2 查询翻译的主要模式 195
8.3 典型案例分析 198
8.3.1 案例一:基于双语词典的CLIR 198
8.3.2 案例二:基于统计翻译模型的CLIR 203
8.3.3 案例三:基于机器翻译系统的CLIR 206
8.3.4 案例四:基于跨语言本体的CLIR 210
8.3.5 案例五:大型商业跨语言搜索引擎Google 212
8.3.6 分析与比较 215
8.4 跨语言信息检索的发展趋势与面临的挑战 217
参考文献 219