当前位置:首页 > 工业技术
Web搜索
Web搜索

Web搜索PDF电子书下载

工业技术

  • 电子书积分:11 积分如何计算积分?
  • 作 者:郭军著
  • 出 版 社:北京:高等教育出版社
  • 出版年份:2009
  • ISBN:9787040278170
  • 页数:294 页
图书介绍:本书将Web上的信息检索、过滤和推荐等技术定义为Web搜索,使其具有了比较宽泛的内涵。这样做的好处是将Web检索、过滤、推荐等既联系紧密又相互区分的技术统一在一个体系中,便于进行系统地学习和研究。这是本书的一个显著特色。本书紧跟技术的最新进展,讨论和介绍重要的研究成果,以及不断涌现的挑战。在写法上以Web搜索所包含的主要任务和核心问题为纲,以典型理论模型为例介绍研究的进展,分析对比不同方法在不同方面的优劣,并着力指出它们的局限、当前的研究重点和发展趋势。这一点与通常的教材一般只对成熟的理论进行系统总结相比有很大的不同。
《Web搜索》目录
标签:搜索

第1章 导论 1

1.1 Web搜索的定义 1

1.2 Web搜索的发展背景 1

1.3 Web搜索的挑战性 2

1.4 Web搜索的科学价值 4

1.5 Web搜索的研究状况 4

1.6 本书的内容 6

第2章 文本检索 9

2.1 引言 9

2.2 Web信息采集 10

2.2.1 Crawler的基本原理 10

2.2.2 Crawler的工作效率 11

2.2.3 Crawler的难题 12

2.3 文本的保存与索引 14

2.3.1 预处理 15

2.3.2 文本的保存 16

2.3.3 文本的索引 17

2.3.4 索引词的选取 20

2.4 检索模型 21

2.4.1 Boolean模型 22

2.4.2 VSM 23

2.4.3 概率模型 24

2.5 网页排序 28

2.6 查询重构 32

2.6.1 用户相关反馈 32

2.6.2 自动局部分析 33

2.6.3 自动全局分析 36

2.7 文本聚类 38

2.7.1 区分法 39

2.7.2 生成法 43

2.8 文本分类 46

2.8.1 k-NN分类器 47

2.8.2 Bayes分类器 48

2.8.3 最大熵分类器 51

2.8.4 区分式分类器 52

2.9 特征选择 55

2.9.1 包含算法 55

2.9.2 排除算法 58

2.10 特征变换 59

2.10.1 自组织映射 59

2.10.2 潜语义标号 60

小结 62

习题 62

第3章 图像检索 63

3.1 引言 63

3.2 图像检索的发展过程 64

3.3 文本自动标注 66

3.3.1 基于二维多粒度隐Markov模型的二类标注 66

3.3.2 有监督的多类标注SML 75

3.4 物体识别 85

3.4.1 星群模型 86

3.4.2 异构星状模型 96

3.5 文字识别 101

3.5.1 引言 101

3.5.2 离线文字识别系统 102

3.5.3 非线性归一化 105

3.5.4 余弦整形变换 106

3.5.5 方向线素特征抽取 109

3.5.6 渐进式计算的马氏距离分类器 110

3.5.7 基于模具的文字切分 112

3.6 人脸检测与识别 113

3.6.1 Adaboost人脸检测算法 113

3.6.2 常见的人脸识别算法 116

3.6.3 非限定性人脸识别算法 118

3.7 视频检索 125

3.7.1 概述 125

3.7.2 镜头切分 128

3.7.3 视频摘要 135

小结 137

习题 138

第4章 音频检索 139

4.1 引言 139

4.2 声学特征抽取 140

4.2.1 时域特征抽取 141

4.2.2 频域特征抽取 141

4.3 HMM模型 144

4.3.1 基本概念与原理 145

4.3.2 3个基本问题及其经典算法 146

4.4 连续语音识别系统 150

4.4.1 基于HMM的语音识别统一框架 150

4.4.2 声学模型 151

4.4.3 语言模型 153

4.4.4 解码器 154

4.5 语音关键词发现技术 155

4.5.1 基于垃圾模型的关键词发现 156

4.5.2 语音关键词发现中的核心问题 157

4.5.3 一个侧重确认的语音关键词发现系统 158

4.6 语音词汇检测技术 160

4.6.1 混淆网络 161

4.6.2 一个基于音节混淆网络的STD系统 163

4.7 非语音音频检索 165

4.7.1 概述 165

4.7.2 声学模型 168

4.7.3 语义模型 171

4.7.4 声学空间与语义空间的联系 173

4.8 音乐检索 177

4.8.1 概述 177

4.8.2 哼唱检索 180

4.8.3 基于语义描述的音乐标注及检索 183

小结 188

习题 188

第5章 信息过滤 189

5.1 引言 189

5.2 基本方法 190

5.2.1 基于Bayes分类器的过滤 190

5.2.2 基于向量距离分类器的过滤 191

5.2.3 基于k近邻分类器的过滤 192

5.2.4 基于SVM的过滤 192

5.2.5 系统性能评价 193

5.3 模型学习 194

5.3.1 生成式与区分式学习 194

5.3.2 降维变换 195

5.3.3 半监督学习 200

5.3.4 演进式学习 205

5.4 垃圾邮件及垃圾短信过滤 208

5.4.1 垃圾邮件过滤系统 208

5.4.2 垃圾短信的过滤 213

5.5 话题检测与跟踪系统 216

5.5.1 报道分割 217

5.5.2 事件检测 219

5.5.3 事件跟踪 221

小结 221

习题 222

第6章 信息推荐 223

6.1 引言 223

6.2 关联规则挖掘的基本算法 224

6.2.1 基本定义 224

6.2.2 Apriori关联规则挖掘算法 224

6.2.3 基于FPT的算法 226

6.3 可信关联规则及其挖掘算法 229

6.3.1 相关定义 229

6.3.2 用邻接矩阵求2项可信集 231

6.3.3 由k项可信集生成(k+1)项可信集 234

6.3.4 基于极大团的可信关联规则挖掘算法 239

6.4 基于FPT的超团模式快速挖掘算法 242

6.4.1 相关定义 243

6.4.2 基于FPT的超团模式和极大超团模式挖掘 244

6.5 协同过滤推荐的基本算法 252

6.6 基于局部偏好的协同过滤推荐算法 255

6.7 基于个性化主动学习的协同过滤 257

6.8 面向排序的协同过滤 260

小结 264

习题 264

第7章 发展前沿 265

7.1 内网检索及对象检索 265

7.2 基于文档的专家检索 266

7.2.1 基于文档的专家表示 267

7.2.2 基于文档的专家检索 268

7.3 对象检索及信息抽取 271

7.3.1 对象检索的基本概念 271

7.3.2 信息抽取 272

7.4 基于Web的对象检索 274

7.5 博客检索 277

7.6 TREC中的博客观点检索 278

7.7 文本情感分析 281

7.7.1 文本情感分析中的特征抽取 281

7.7.2 情感分类模型 283

小结 283

习题 284

参考文献 285

返回顶部