《世界著名计算机教材精选 Web数据挖掘 第2版》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:刘兵著;俞勇等译
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2013
  • ISBN:9787302298700
  • 页数:434 页
图书介绍:本书不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题,而且还介绍了结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等内容,这些内容在已有书籍中没有提及过,但它们在Web数据挖掘中却占有非常重要的地位。全书分为两大部分:第一部分包括第2章到第5章,介绍数据挖掘的基础;第二部分包括第6章到第12章,介绍Web相关的挖掘任务。

第1章 概述 1

1.1 什么是万维网 1

1.2 万维网和互联网的历史简述 2

1.3 Web数据挖掘 3

1.3.1 什么是数据挖掘 4

1.3.2 什么是Web数据挖掘 5

1.4 各章概要 6

1.5 如何阅读本书 8

文献评注 9

参考文献 9

第1部分 数据挖掘基础 13

第2章 关联规则和序列模式 13

2.1 关联规则的基本概念 13

2.2 Apriori算法 15

2.2.1 频繁项目集生成 15

2.2.2 关联规则生成 18

2.3 关联规则挖掘的数据格式 20

2.4 多最小支持度的关联规则挖掘 21

2.4.1 扩展模型 22

2.4.2 挖掘算法 23

2.4.3 规则生成 27

2.5 分类关联规则挖掘 28

2.5.1 问题描述 28

2.5.2 挖掘算法 29

2.5.3 多最小支持度分类关联规则挖掘 31

2.6 序列模式的基本概念 32

2.7 基于GSP挖掘序列模式 34

2.7.1 GSP算法 34

2.7.2 多最小支持度挖掘 35

2.8 基于PrefixSpan算法的序列模式挖掘 38

2.8.1 PrefixSpan算法 39

2.8.2 多最小支持度挖掘 40

2.9 从序列模式中产生规则 42

2.9.1 序列规则 42

2.9.2 标签序列规则 42

2.9.3 分类序列规则 43

文献评注 43

参考文献 45

第3章 监督学习 49

3.1 基本概念 49

3.2 决策树归纳 52

3.2.1 学习算法 53

3.2.2 混杂度函数 54

3.2.3 处理连续属性 57

3.2.4 其他一些问题 58

3.3 评估分类器 60

3.3.1 评估方法 61

3.3.2 查准率、查全率、F-score和平衡点(Breakeven Point) 62

3.3.3 受试者工作特征曲线 63

3.3.4 提升曲线 65

3.4 规则归纳 66

3.4.1 顺序化覆盖 66

3.4.2 规则学习:Learn-One-Rule函数 68

3.4.3 讨论 70

3.5 基于关联规则的分类 71

3.5.1 使用类关联规则进行分类 71

3.5.2 使用类关联规则作为分类属性 74

3.5.3 使用古典的关联规则分类 74

3.6 朴素贝叶斯分类 75

3.7 朴素贝叶斯文本分类 78

3.7.1 概率框架 78

3.7.2 朴素贝叶斯模型 79

3.7.3 讨论 81

3.8 支持向量机 81

3.8.1 线性支持向量机:可分的情况 82

3.8.2 线性支持向量机:数据不可分的情况 86

3.8.3 非线性支持向量机:核方法 88

总结 90

3.9 k-近邻学习 91

3.10 分类器的集成 92

3.10.1 Bagging 92

3.10.2 Boosting 92

文献评注 93

参考文献 94

第4章 无监督学习 98

4.1 基本概念 98

4.2 k-均值聚类 100

4.2.1 k-均值算法 100

4.2.2 k-均值算法的硬盘版本 102

4.2.3 优势和劣势 102

4.3 聚类的表示 105

4.3.1 聚类的一般表示方法 106

4.3.2 任意形状的聚类 106

4.4 层次聚类 107

4.4.1 单连结方法 108

4.4.2 全连结方法 108

4.4.3 平均连结方法 109

4.4.4 优势和劣势 109

4.5 距离函数 110

4.5.1 数字属性 110

4.5.2 布尔属性和名词性属性 110

4.5.3 文本文档 112

4.6 数据标准化 112

4.7 混合属性的处理 114

4.8 采用哪种聚类算法 115

4.9 聚类的评估 115

4.10 发现数据区域和数据空洞 118

文献评注 119

参考文献 121

第5章 部分监督学习 124

5.1 从已标注数据和无标注数据中学习 124

5.1.1 使用朴素贝叶斯分类器的EM算法 125

5.1.2 Co-Training 128

5.1.3 自学习 129

5.1.4 直推式支持向量机 130

5.1.5 基于图的方法 131

5.1.6 讨论 133

5.2 从正例和无标注数据中学习 133

5.2.1 PU学习的应用 134

5.2.2 理论基础 135

5.2.3 建立分类器:两步方法 137

5.2.4 建立分类器:偏置SVM 142

5.2.5 建立分类器:概率估计 144

5.2.6 讨论 145

附录:朴素贝叶斯EM算法的推导 145

文献评注 147

参考文献 148

第2部分 Web挖掘 153

第6章 信息检索与Web搜索 153

6.1 信息检索中的基本概念 154

6.2 信息检索模型 156

6.2.1 布尔模型 156

6.2.2 向量空间模型 157

6.2.3 统计语言模型 159

6.3 关联性反馈 160

6.4 评估标准 162

6.5 文本和网页的预处理 164

6.5.1 无用词移除 165

6.5.2 词干提取 165

6.5.3 其他文本预处理步骤 165

6.5.4 网页预处理步骤 166

6.5.5 副本探测 167

6.6 倒排索引及其压缩 168

6.6.1 倒排索引 168

6.6.2 使用倒排索引搜索 169

6.6.3 索引的建立 170

6.6.4 索引的压缩 171

6.7 隐式语义索引 175

6.7.1 奇异值分解(singular value decomposition) 176

6.7.2 查询和检索 177

6.7.3 实例 178

6.7.4 讨论 181

6.8 Web搜索 181

6.9 元搜索引擎和组合多种排序 183

6.9.1 使用相似度分数的合并 184

6.9.2 使用排名位置的合并 184

6.10 网络作弊 186

6.10.1 内容作弊 187

6.10.2 链接作弊 187

6.10.3 隐藏技术 188

6.10.4 抵制作弊 189

文献评注 190

参考文献 191

第7章 社会网络分析 195

7.1 社会网络分析 196

7.1.1 中心性 196

7.1.2 权威 198

7.2 同引分析和引文耦合 199

7.2.1 同引分析 200

7.2.2 引文耦合 200

7.3 PageRank 201

7.3.1 PageRank算法 201

7.3.2 PageRank算法的优点和缺点 207

7.3.3 Timed PageRank和Recency Search 207

7.4 HITS 208

7.4.1 HITS算法 209

7.4.2 寻找其他的特征向量 211

7.4.3 同引分析和引文耦合的关系 211

7.4.4 HITS算法的优点和缺点 212

7.5 社区发现 213

7.5.1 问题定义 213

7.5.2 二分核心社区 215

7.5.3 最大流社区 216

7.5.4 基于中介性的电子邮件社区 218

7.5.5 命名实体的重叠社区 219

文献评注 220

参考文献 220

第8章 Web爬取 225

8.1 一个简单爬虫算法 225

8.1.1 宽度优先爬虫 227

8.1.2 带偏好的爬虫 227

8.2 实现议题 228

8.2.1 网页获取 228

8.2.2 网页解析 228

8.2.3 删除无用词并提取词干 230

8.2.4 链接提取和规范化 230

8.2.5 爬虫陷阱 232

8.2.6 网页库 232

8.2.7 并发性 233

8.3 通用爬虫 234

8.3.1 可扩展性 234

8.3.2 覆盖度、新鲜度和重要度 235

8.4 限定爬虫 236

8.5 主题爬虫 238

8.5.1 主题本地性和线索 240

8.5.2 最优优先变种 243

8.5.3 自适应 246

8.6 评价标准 249

8.7 爬虫道德和冲突 253

8.8 最新进展 255

文献评注 256

参考文献 257

第9章 结构化数据抽取:包装器生成 261

9.1 预备知识 261

9.1.1 两种富含数据的网页 262

9.1.2 数据模型 263

9.1.3 数据实例的HTML标记编码 265

9.2 包装器归纳 266

9.2.1 从一张网页抽取 267

9.2.2 学习抽取规则 269

9.2.3 识别提供信息的样例 272

9.2.4 包装器维护 273

9.3 基于实例的包装器学习 273

9.4 自动包装器生成中的一些问题 276

9.4.1 两个抽取问题 276

9.4.2 作为正则表达式的模式 277

9.5 字符串匹配和树匹配 277

9.5.1 字符串编辑距离 278

9.5.2 树匹配 279

9.6 多重对齐 282

9.6.1 中星方法 283

9.6.2 部分树对齐 284

9.7 构建DOM树 287

9.8 基于列表页的抽取:平坦数据记录 288

9.8.1 有关数据记录的两个观察结果 289

9.8.2 挖掘数据区域 290

9.8.3 从数据区域中识别数据记录 294

9.8.4 数据项对齐与抽取 294

9.8.5 利用视觉信息 295

9.8.6 一些其他技术 295

9.9基于列表页的抽取:嵌套数据记录 296

9.10 基于多张网页的抽取 301

9.10.1 采用前几节中的技术 301

9.10.2 RoadRunner算法 301

9.11 一些其他问题 303

9.11.1 从其他网页中抽取 303

9.11.2 析取还是可选 303

9.11.3 集合类型还是元组类型 304

9.11.4 标注与整合 304

9.11.5 领域相关的抽取 305

9.12 讨论 305

文献评注 305

参考文献 306

第10章 信息集成 310

10.1 什么是模式匹配 310

10.2 模式匹配的预处理工作 312

10.3 模式层的匹配 313

10.3.1 基于语言学的算法 313

10.3.2 基于模式约束的算法 314

10.4 基于域和实例层的匹配 315

10.5 综合多种相似度 317

10.6 1:m匹配 317

10.7 一些其他问题 318

10.7.1 重用已有的匹配结果 318

10.7.2 大量模式的匹配 319

10.7.3 模式匹配的结果 319

10.7.4 用户交互 320

10.8 Web查询界面的集成 320

10.8.1 一个基于聚类的方法 322

10.8.2 基于相互关系的方法 324

10.8.3 基于实例的方法 326

10.9 构建一个统一的全局查询界面 328

10.9.1 结构恰当和合并算法 328

10.9.2 词汇恰当 330

10.9.3 实例恰当 331

文献评注 331

参考文献 331

第11章 观点挖掘与情感分析 335

11.1 观点挖掘问题 335

11.1.1 问题定义 336

11.1.2 基于方面的观点摘要 340

11.2 文本情感分类 341

11.2.1 基于监督学习的分类 342

11.2.2 基于无监督学习的分类 343

11.3 句子主观性与情感分类 345

11.4 观点词汇扩展 347

11.5 基于方面的观点挖掘 349

11.5.1 基于方面的情感分类 349

11.5.2 观点的基本规则 351

11.5.3 方面抽取 353

11.5.4 同时扩展观点词汇和抽取方面 355

11.6 比较性观点挖掘 358

11.6.1 问题定义 358

11.6.2 等级比较性语句的识别 360

11.6.3 偏好实体识别 360

11.7 其他的一些问题 362

11.8 观点搜索 365

11.9 观点欺诈检测 367

11.9.1 观点欺诈的目标和行为 367

11.9.2 隐藏技巧 368

11.9.3 基于监督学习的欺诈检测 369

11.9.4 基于异常行为的欺诈检测 370

11.9.5 群组欺诈检测 372

11.10 评论的效用 372

文献评注 373

参考文献 374

第12章 Web使用挖掘 384

12.1 数据收集和预处理 385

12.1.1 数据的来源和类型 385

12.1.2 Web使用记录数据预处理的关键元素 388

12.2 Web使用挖掘的数据建模 392

12.3 Web使用模式的发现和分析 395

12.3.1 会话和访问者分析 395

12.3.2 聚类分析和访问者分割 396

12.3.3 关联及相关度分析 399

12.3.4 序列和导航模式分析 399

12.3.5 基于Web用户事务的分类和预测 402

12.4 推荐系统和协同过滤 402

12.4.1 推荐问题 402

12.4.2 基于内容的推荐 403

12.4.3 协同过滤:k-近邻(kNN) 404

12.4.4 协同过滤:使用关联规则 406

12.4.5 协同过滤:矩阵分解 408

12.5 查询日志挖掘 412

12.5.1 数据源、特征和挑战 413

12.5.2 查询日志数据准备 414

12.5.3 查询日志数据模型 416

12.5.4 查询日志特征提取 419

12.5.5 查询日志挖掘应用 419

12.5.6 查询日志挖掘方法 421

12.6 计算广告学 423

12.7 讨论和展望 426

文献评注 426

参考文献 427