第1章 网络搜索引擎简介 1
1.1 信息检索简史 1
1.2 传统信息检索回顾 5
1.3 网络信息检索 9
第2章 网络爬行、索引建立和查询处理 15
2.1 网络爬行 15
2.2 内容索引 19
2.3 查询处 21
第3章 通过欢迎度对网页排名 25
3.1 1998年的情景 25
3.2 两篇论文 26
3.3 查询无关性 30
第4章 谷歌PageRank的数学 31
4.1 PageRank的原始求和公式 32
4.2 求和方程的矩阵表示 33
4.3 迭代过程问题 34
4.4 一点关于马尔可夫链理论的介绍 36
4.5 基本模型的早期修正 36
4.6 PageRank 向量的计算 39
4.7 谷歌矩阵的谱定理及其证明 45
第5章 PageRank模型中的参数 47
5.1 α因子 47
5.2 超链接矩阵H 48
5.3 跳转矩阵E 49
第6章 PageRank的敏感性 57
6.1 对α的敏感性 57
6.2 对H的敏感性 62
6.3 对VT的敏感性 63
6.4 其他敏感性分析 63
6.5 有关敏感性的定理和证明 66
第7章 作为线性系统的PageRank问题 71
7.1 (I-αS)的性质 71
7.2 (I-aH)的性质 72
7.3 PageRank稀疏线性系统的证明 73
第8章 PageRank大规模实现中的问题 75
8.1 存储问题 75
8.2 收敛准则 79
8.3 精度 79
8.4 悬挂结点 80
8.5 对后退按钮建模 84
第9章 加速PageRank计算 89
9.1 一种自适应的幂法 89
9.2 外插 90
9.3 聚合 94
9.4 其他数值方法 97
第10章 更新PageRank向量 99
10.1 两类更新问题及其发展历程 100
10.2 重启幂法 101
10.3 使用近似聚合进行近似更新 102
10.4 精确聚合 104
10.5 精确聚合与近似聚合的比较 105
10.6 利用迭代聚合进行更新 107
10.7 确定划分 109
10.8 结论 111
第11章 HITS网页排名方法 115
11.1 HITS算法 115
11.2 HITS的实现 117
11.3 HITS的收敛性 119
11.4 HITS示例 120
11.5 HITS的优点与缺点 122
11.6 HITS与文献统计学的关系 123
11.7 查询无关的HITS 124
11.8 加速HITS 126
11.9 HITS的敏感性 126
第12章 网页排名的其他链接方法 131
12.1 SALSA 131
12.2 混成排名方法 135
12.3 基于流量的排名 136
第13章 网络信息检索的未来 139
13.1 垃圾信息 139
13.2 个性化 142
13.3 聚类 142
13.4 智能体 143
13.5 趋势与时间敏感搜索 144
13.6 隐私和审查 146
13.7 图书馆分类方式 147
13.8 数据融合 148
第14章 网络信息检索资源 149
14.1 入门阶段的资源 149
14.2 用于严肃的科学研究的资源 150
第15章 数学指南 153
15.1 线性代数 153
15.2 佩隆-弗罗贝尼乌斯定理 167
15.3 马尔可夫链 175
15.4 佩隆补 186
15.5 随机补 192
15.6 设限 194
15.7 聚合 195
15.8 去聚合 198
第16章 术语汇编 201
参考文献 207
索引 218