第1章 导论 1
1.1 跨语言信息检索的意义 1
1.1.1 网络资源呈现多语言特征 1
1.1.2 用户对跨语言信息检索的需求 4
1.2 国内外研究现状述评 5
1.2.1 国外跨语言信息检索研究历程 6
1.2.2 国内跨语言信息检索研究现状 7
1.3 翻译优化技术的提出 11
1.3.1 翻译优化的依据 11
1.3.2 翻译优化的意义 13
1.4 本书的结构 14
1.4.1 研究内容 14
1.4.2 技术路线 15
1.4.3 研究方法 16
1.4.4 结构安排 16
第2章 跨语言信息检索基础理论 19
2.1 跨语言信息检索基础 19
2.1.1 跨语言信息检索的概念 19
2.1.2 跨语言信息检索的应用 20
2.2 跨语言信息检索的语言预处理 32
2.2.1 中文信息处理 32
2.2.2 欧洲语言信息处理 35
2.2.3 其他语言信息处理 36
2.3 跨语言信息检索模型 37
2.3.1 检索模型及其分类 37
2.3.2 检索模型在跨语言信息检索中的应用 46
2.4 跨语言信息检索相关资源 53
2.4.1 相关会议 53
2.4.2 相关语料 55
2.5 跨语言信息检索研究展望 56
2.6 本章小结 58
第3章 跨语言信息检索关键技术 59
3.1 跨语言信息检索中的翻译策略 59
3.1.1 翻译策略的选择 59
3.1.2 翻译资源的构建 63
3.1.3 翻译歧义性问题 68
3.2 查询翻译消歧方法 70
3.2.1 利用结构化查询消歧 70
3.2.2 通过语言分析消歧 71
3.2.3 借助语言资源消歧 73
3.2.4 基于用户交互消歧 74
3.3 命名实体识别与翻译 77
3.3.1 命名实体的识别方法 78
3.3.2 命名实体的翻译方法 79
3.4 机器翻译与跨语言信息检索 79
3.4.1 机器翻译在跨语言信息检索应用中的基本问题 80
3.4.2 统计机器翻译与跨语言信息检索 81
3.5 数据融合 82
3.5.1 查询表达式融合 82
3.5.2 检索结果融合 83
3.6 本章小结 84
第4章 跨语言信息检索的相关反馈技术 85
4.1 相关性理论与相关反馈技术 85
4.1.1 相关性与相关性模型 85
4.1.2 相关性判断 88
4.1.3 相关反馈技术 89
4.2 相关反馈技术在不同检索模型中的应用 93
4.2.1 基于经典模型的相关反馈 93
4.2.2 基于语言模型的相关反馈 96
4.2.3 基于语义模型的相关反馈 97
4.3 跨语言查询扩展 98
4.3.1 不同翻译资源下的查询扩展 100
4.3.2 不同语言转换中的查询扩展 105
4.3.3 翻译资源质量对查询扩展的影响 105
4.4 基于语言模型的跨语言相关反馈 107
4.5 跨语言相关反馈中存在的问题 108
4.6 本章小结 109
第5章 基于相关反馈的翻译优化技术 110
5.1 翻译优化技术的基础理论 110
5.1.1 翻译优化的前提假设 110
5.1.2 翻译优化的基本思想 112
5.1.3 翻译优化的理论依据 113
5.2 翻译优化技术的处理过程 115
5.2.1 从相关文献对中抽取检索词及其翻译关系 116
5.2.2 利用检索词及其翻译关系优化查询翻译 121
5.3 相关文献集合中检索词的翻译概率估计算法 123
5.3.1 基于词对齐的翻译算法TWA 123
5.3.2 保留所有翻译的算法KAT 124
5.3.3 保留最好翻译的算法K1T 125
5.3.4 保留最高频率翻译的算法KFT 126
5.4 翻译优化的数学建模 128
5.4.1 对齐模型 128
5.4.2 翻译概率重新估计模型 130
5.5 本章小结 131
第6章 跨语言检索相关反馈综合模型构建 132
6.1 翻译优化与查询扩展的比较研究 132
6.1.1 翻译优化与查询扩展的对比 132
6.1.2 翻译优化与查询扩展的结合 134
6.2 跨语言检索相关反馈综合模型(RFIM)的构建 135
6.2.1 模型要解决的问题 135
6.2.2 跨语言检索中已有的相关反馈建模分析 135
6.2.3 层次分析法 136
6.2.4 具有层次结构的跨语言相关反馈综合模型总体框架 137
6.3 跨语言相关反馈综合模型各层次要素分析 137
6.3.1 用户行为层 137
6.3.2 方法技术层 139
6.3.3 影响因子层 140
6.4 模型的检验 141
6.5 本章小结 141
第7章 基于相关反馈的英汉跨语言检索系统实现 143
7.1 系统功能与资源 143
7.1.1 系统功能设计 144
7.1.2 系统实现的流程与环境 145
7.1.3 系统的语料 146
7.2 系统体系结构设计 148
7.2.1 查询翻译模块 150
7.2.2 文本预处理模块 151
7.2.3 检索模块 151
7.2.4 结果显示模块 154
7.2.5 相关反馈模块 154
7.3 人机交互接口设计 157
7.3.1 交互性设计 157
7.3.2 多级相关性判断 159
7.4 系统评价体系 159
7.4.1 跨语言信息检索评价模型 159
7.4.2 跨语言信息检索评价指标 160
7.5 本章小结 162
第8章 基于自动相关反馈的翻译优化实验 163
8.1 实验设计 163
8.1.1 实验目标 163
8.1.2 实验内容 163
8.1.3 实验数据收集 164
8.2 基准(Baseline)实验结果分析 166
8.2.1 单语言检索基准实验结果 166
8.2.2 跨语言检索基准实验结果 166
8.3 翻译优化实验结果分析 167
8.3.1 基于词对齐的翻译方法TWA的实验结果 168
8.3.2 保留所有翻译的方法KAT的实验结果 169
8.3.3 保留最好翻译的方法K1T的实验结果 169
8.3.4 保留最高频率翻译的方法KFT的实验结果 170
8.3.5 四种翻译优化方法的实验结果比较 171
8.4 查询扩展实验结果分析 172
8.4.1 翻译前查询扩展方法Pre-QE的实验结果 172
8.4.2 翻译后查询扩展方法Post-QE的实验结果 173
8.4.3 混合式查询扩展方法Comb-QE的实验结果 174
8.4.4 3种查询扩展方法的实验结果比较 175
8.5 翻译优化与查询扩展相结合的实验结果分析 177
8.5.1 翻译优化与查询扩展的实验结果对比 177
8.5.2 翻译优化与查询扩展相结合的实验结果分析 178
8.6 实验结论 179
8.7 本章小结 180
第9章 基于用户相关反馈的翻译优化实验 181
9.1 实验设计 181
9.1.1 实验目标 181
9.1.2 实验内容 181
9.2 英汉跨语言信息检索用户相关性标注实验 182
9.2.1 实验数据收集 182
9.2.2 实验步骤 182
9.2.3 用户个体差异与相关性判断结果分析 185
9.2.4 翻译优化的实验结果分析 187
9.2.5 用户对系统的评价分析 190
9.3 用户全程参与的英汉跨语言信息检索相关反馈实验 191
9.3.1 实验资源准备 192
9.3.2 实验步骤 193
9.3.3 实验结果分析 196
9.3.4 用户的评价分析 201
9.4 实验结论 205
9.5 本章小结 206
第10章 其他优化技术的跨语言信息检索实验 207
10.1 基于命名实体翻译的跨语言信息检索实验 207
10.1.1 实验概述 207
10.1.2 基于信息抽取的命名实体识别与翻译 208
10.1.3 命名实体翻译在跨语言信息检索中的应用 209
10.1.4 实验结果分析 210
10.2 基于机器翻译的跨语言信息检索实验 214
10.2.1 机器翻译用于查询翻译 214
10.2.2 实验概述 215
10.2.3 实验结果分析 216
10.3 基于数据融合的跨语言信息检索实验 219
10.3.1 实验概述 219
10.3.2 实验结果分析 220
10.4 实验结论 221
10.5 本章小结 221
第11章 结论与展望 223
11.1 研究结论 223
11.2 研究展望 224
附录1 相关反馈实验的英文检索主题(标题) 226
附录2 相关反馈实验的中文检索主题(标题) 227
附录3 四种翻译优化方法的平均查准率均值MAP 228
附录4 ICE-TEA系统用户研究调查问卷 234
参考文献 241