第1章 导论 1
1.1 Web搜索的定义 1
1.2 Web搜索的发展背景 1
1.3 Web搜索的挑战性 2
1.4 Web搜索的科学价值 4
1.5 Web搜索的研究状况 4
1.6 本书的内容 6
第2章 文本检索 9
2.1 引言 9
2.2 Web信息采集 10
2.2.1 Crawler的基本原理 10
2.2.2 Crawler的工作效率 11
2.2.3 Crawler的难题 12
2.3 文本的保存与索引 14
2.3.1 预处理 15
2.3.2 文本的保存 16
2.3.3 文本的索引 17
2.3.4 索引词的选取 20
2.4 检索模型 21
2.4.1 Boolean模型 22
2.4.2 VSM 23
2.4.3 概率模型 24
2.5 网页排序 28
2.6 查询重构 32
2.6.1 用户相关反馈 32
2.6.2 自动局部分析 33
2.6.3 自动全局分析 36
2.7 文本聚类 38
2.7.1 区分法 39
2.7.2 生成法 43
2.8 文本分类 46
2.8.1 k-NN分类器 47
2.8.2 Bayes分类器 48
2.8.3 最大熵分类器 51
2.8.4 区分式分类器 52
2.9 特征选择 55
2.9.1 包含算法 55
2.9.2 排除算法 58
2.10 特征变换 59
2.10.1 自组织映射 59
2.10.2 潜语义标号 60
小结 62
习题 62
第3章 图像检索 63
3.1 引言 63
3.2 图像检索的发展过程 64
3.3 文本自动标注 66
3.3.1 基于二维多粒度隐Markov模型的二类标注 66
3.3.2 有监督的多类标注SML 75
3.4 物体识别 85
3.4.1 星群模型 86
3.4.2 异构星状模型 96
3.5 文字识别 101
3.5.1 引言 101
3.5.2 离线文字识别系统 102
3.5.3 非线性归一化 105
3.5.4 余弦整形变换 106
3.5.5 方向线素特征抽取 109
3.5.6 渐进式计算的马氏距离分类器 110
3.5.7 基于模具的文字切分 112
3.6 人脸检测与识别 113
3.6.1 Adaboost人脸检测算法 113
3.6.2 常见的人脸识别算法 116
3.6.3 非限定性人脸识别算法 118
3.7 视频检索 125
3.7.1 概述 125
3.7.2 镜头切分 128
3.7.3 视频摘要 135
小结 137
习题 138
第4章 音频检索 139
4.1 引言 139
4.2 声学特征抽取 140
4.2.1 时域特征抽取 141
4.2.2 频域特征抽取 141
4.3 HMM模型 144
4.3.1 基本概念与原理 145
4.3.2 3个基本问题及其经典算法 146
4.4 连续语音识别系统 150
4.4.1 基于HMM的语音识别统一框架 150
4.4.2 声学模型 151
4.4.3 语言模型 153
4.4.4 解码器 154
4.5 语音关键词发现技术 155
4.5.1 基于垃圾模型的关键词发现 156
4.5.2 语音关键词发现中的核心问题 157
4.5.3 一个侧重确认的语音关键词发现系统 158
4.6 语音词汇检测技术 160
4.6.1 混淆网络 161
4.6.2 一个基于音节混淆网络的STD系统 163
4.7 非语音音频检索 165
4.7.1 概述 165
4.7.2 声学模型 168
4.7.3 语义模型 171
4.7.4 声学空间与语义空间的联系 173
4.8 音乐检索 177
4.8.1 概述 177
4.8.2 哼唱检索 180
4.8.3 基于语义描述的音乐标注及检索 183
小结 188
习题 188
第5章 信息过滤 189
5.1 引言 189
5.2 基本方法 190
5.2.1 基于Bayes分类器的过滤 190
5.2.2 基于向量距离分类器的过滤 191
5.2.3 基于k近邻分类器的过滤 192
5.2.4 基于SVM的过滤 192
5.2.5 系统性能评价 193
5.3 模型学习 194
5.3.1 生成式与区分式学习 194
5.3.2 降维变换 195
5.3.3 半监督学习 200
5.3.4 演进式学习 205
5.4 垃圾邮件及垃圾短信过滤 208
5.4.1 垃圾邮件过滤系统 208
5.4.2 垃圾短信的过滤 213
5.5 话题检测与跟踪系统 216
5.5.1 报道分割 217
5.5.2 事件检测 219
5.5.3 事件跟踪 221
小结 221
习题 222
第6章 信息推荐 223
6.1 引言 223
6.2 关联规则挖掘的基本算法 224
6.2.1 基本定义 224
6.2.2 Apriori关联规则挖掘算法 224
6.2.3 基于FPT的算法 226
6.3 可信关联规则及其挖掘算法 229
6.3.1 相关定义 229
6.3.2 用邻接矩阵求2项可信集 231
6.3.3 由k项可信集生成(k+1)项可信集 234
6.3.4 基于极大团的可信关联规则挖掘算法 239
6.4 基于FPT的超团模式快速挖掘算法 242
6.4.1 相关定义 243
6.4.2 基于FPT的超团模式和极大超团模式挖掘 244
6.5 协同过滤推荐的基本算法 252
6.6 基于局部偏好的协同过滤推荐算法 255
6.7 基于个性化主动学习的协同过滤 257
6.8 面向排序的协同过滤 260
小结 264
习题 264
第7章 发展前沿 265
7.1 内网检索及对象检索 265
7.2 基于文档的专家检索 266
7.2.1 基于文档的专家表示 267
7.2.2 基于文档的专家检索 268
7.3 对象检索及信息抽取 271
7.3.1 对象检索的基本概念 271
7.3.2 信息抽取 272
7.4 基于Web的对象检索 274
7.5 博客检索 277
7.6 TREC中的博客观点检索 278
7.7 文本情感分析 281
7.7.1 文本情感分析中的特征抽取 281
7.7.2 情感分类模型 283
小结 283
习题 284
参考文献 285