《Web数据挖掘 第2版》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:(美)刘兵著;俞勇等译
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2009
  • ISBN:7302298700
  • 页数:434 页
图书介绍:

第1章 概述 1

1.1什么是万维网 1

1.2万维网和互联网的历史简述 2

1.3 Web数据挖掘 3

1.3.1什么是数据挖掘 4

1.3.2什么是Web数据挖掘 5

1.4各章概要 6

1.5如何阅读本书 8

文献评注 9

参考文献 9

第1部分 数据挖掘基础 13

第2章 关联规则和序列模式 13

2.1关联规则的基本概念 13

2.2 Apriori算法 15

2.2.1频繁项目集生成 15

2.2.2关联规则生成 18

2.3关联规则挖掘的数据格式 20

2.4多最小支持度的关联 21

规则挖掘 21

2.4.1扩展模型 22

2.4.2挖掘算法 23

2.4.3规则生成 27

2.5分类关联规则挖掘 28

2.5.1问题描述 28

2.5.2挖掘算法 29

2.5.3多最小支持度分类关联规则挖掘 31

2.6序列模式的基本概念 32

2.7基于GSP挖掘序列模式 34

2.7.1 GSP算法 34

2.7.2多最小支持度挖掘 35

2.8基于PrefixSpan算法的 38

序列模式挖掘 38

2.8.1 PrefixSpan算法 39

2.8.2多最小支持度挖掘 40

2.9从序列模式中产生规则 42

2.9.1序列规则 42

2.9.2标签序列规则 42

2.9.3分类序列规则 43

文献评注 43

参考文献 45

第3章 监督学习 49

3.1基本概念 49

3.2决策树归纳 52

3.2.1学习算法 53

3.2.2混杂度函数 54

3.2.3处理连续属性 57

3.2.4其他一些问题 58

3.3评估分类器 60

3.3.1评估方法 61

3.3.2查准率、查全率、F-score和平衡点(Breakeven Point) 62

3.3.3受试者工作特征曲线 63

3.3.4提升曲线 65

3.4规则归纳 66

3.4.1顺序化覆盖 66

3.4.2规则学习:Lea-One-Rule函数 68

3.4.3讨论 70

3.5基于关联规则的分类 71

3.5.1使用类关联规则进行分类 71

3.5.2使用类关联规则作为分类属性 74

3.5.3使用古典的关联规则分类 74

3.6朴素贝叶斯分类 75

3.7朴素贝叶斯文本分类 78

3.7.1概率框架 78

3.7.2朴素贝叶斯模型 79

3.7.3讨论 81

3.8支持向量机 81

3.8.1线性支持向量机:可分的情况 82

3.8.2线性支持向量机:数据不可分的情况 86

3.8.3非线性支持向量机:核方法 88

总结 90

3.9 k-近邻学习 91

3.10分类器的集成 92

3.10.1 Bagging 92

3.10.2 Boosting 92

文献评注 93

参考文献 94

第4章 无监督学习 98

4.1基本概念 98

4.2 k-均值聚类 100

4.2.1 k-均值算法 100

4.2.2 k-均值算法的硬盘版本 102

4.2.3优势和劣势 102

4.3聚类的表示 105

4.3.1聚类的一般表示方法 106

4.3.2任意形状的聚类 106

4.4层次聚类 107

4.4.1单连结方法 108

4.4.2全连结方法 108

4.4.3平均连结方法 109

4.4.4优势和劣势 109

4.5距离函数 110

4.5.1数字属性 110

4.5.2布尔属性和名词性属性 110

4.5.3文本文档 112

4.6数据标准化 112

4.7混合属性的处理 114

4.8采用哪种聚类算法 115

4.9聚类的评估 115

4.10发现数据区域和数据空洞 118

文献评注 119

参考文献 121

第5章 部分监督学习 124

5.1从已标注数据和无标注 124

数据中学习 124

5.1.1使用朴素贝叶斯分类器的EM算法 125

5.1.2 Co-Training 128

5.1.3自学习 129

5.1.4直推式支持向量机 130

5.1.5基于图的方法 131

5.1.6讨论 133

5.2从正例和无标注数据中学习 133

5.2.1 PU学习的应用 134

5.2.2理论基础 135

5.2.3建立分类器:两步方法 137

5.2.4建立分类器:偏置SVM 142

5.2.5建立分类器:概率估计 144

5.2.6讨论 145

附录:朴素贝叶斯EM算法的推导 145

文献评注 147

参考文献 148

第2部分 Web挖掘 153

第6章 信息检索与Web搜索 153

6.1信息检索中的基本概念 154

6.2信息检索模型 156

6.2.1布尔模型 156

6.2.2向量空间模型 157

6.2.3统计语言模型 159

6.3关联性反馈 160

6.4评估标准 162

6.5文本和网页的预处理 164

6.5.1无用词移除 165

6.5.2词干提取 165

6.5.3其他文本预处理步骤 165

6.5.4网页预处理步骤 166

6.5.5副本探测 167

6.6倒排索引及其压缩 168

6.6.1倒排索引 168

6.6.2使用倒排索引搜索 169

6.6.3索引的建立 170

6.6.4索引的压缩 171

6.7隐式语义索引 175

6.7.1奇异值分解(singular value decomposition) 176

6.7.2查询和检索 177

6.7.3实例 178

6.7.4讨论 181

6.8 Web搜索 181

6.9元搜索引擎和组合多种排序 183

6.9.1使用相似度分数的合并 184

6.9.2使用排名位置的合并 184

6.10网络作弊 186

6.10.1内容作弊 187

6.10.2链接作弊 187

6.10.3隐藏技术 188

6.10.4抵制作弊 189

文献评注 190

参考文献 191

第7章 社会网络分析 195

7.1社会网络分析 196

7.1.1中心性 196

7.1.2权威 198

7.2同引分析和引文耦合 199

7.2.1同引分析 200

7.2.2引文耦合 200

7.3 PageRank 201

7.3.1 PageRank算法 201

7.3.2 PageRank算法的优点和缺点 207

7.3.3 Timed PageRank和Recency Search 207

7.4 HITS 208

7.4.1 HITS算法 209

7.4.2寻找其他的特征向量 211

7.4.3同引分析和引文耦合的关系 211

7.4.4 HITS算法的优点和缺点 212

7.5社区发现 213

7.5.1问题定义 213

7.5.2二分核心社区 215

7.5.3最大流社区 216

7.5.4基于中介性的电子邮件社区 218

7.5.5命名实体的重叠社区 219

文献评注 220

参考文献 220

第8章 Web爬取 225

8.1一个简单爬虫算法 225

8.1.1宽度优先爬虫 227

8.1.2带偏好的爬虫 227

8.2实现议题 228

8.2.1网页获取 228

8.2.2网页解析 228

8.2.3删除无用词并提取词干 230

8.2.4链接提取和规范化 230

8.2.5爬虫陷阱 232

8.2.6网页库 232

8.2.7并发性 233

8.3通用爬虫 234

8.3.1可扩展性 234

8.3.2覆盖度、新鲜度和重要度 235

8.4限定爬虫 236

8.5主题爬虫 238

8.5.1主题本地性和线索 240

8.5.2最优优先变种 243

8.5.3自适应 246

8.6评价标准 249

8.7爬虫道德和冲突 253

8.8最新进展 255

文献评注 256

参考文献 257

第9章 结构化数据抽取:包装器生成 261

9.1预备知识 261

9.1.1两种富含数据的网页 262

9.1.2数据模型 263

9.1.3数据实例的HTML标记编码 265

9.2包装器归纳 266

9.2.1从一张网页抽取 267

9.2.2学习抽取规则 269

9.2.3识别提供信息的样例 272

9.2.4包装器维护 273

9.3基于实例的包装器学习 273

9.4自动包装器生成中的一些问题 276

9.4.1两个抽取问题 276

9.4.2作为正则表达式的模式 277

9.5字符串匹配和树匹配 277

9.5.1字符串编辑距离 278

9.5.2树匹配 279

9.6多重对齐 282

9.6.1中星方法 283

9.6.2部分树对齐 284

9.7构建DOM树 287

9.8基于列表页的抽取:平坦数据记录 288

9.8.1有关数据记录的两个观察结果 289

9.8.2挖掘数据区域 290

9.8.3从数据区域中识别数据记录 294

9.8.4数据项对齐与抽取 294

9.8.5利用视觉信息 295

9.8.6一些其他技术 295

9.9基于列表页的抽取:嵌套数据记录 296

9.10基于多张网页的抽取 301

9.10.1采用前几节中的技术 301

9.10.2 RoadRunner算法 301

9.11一些其他问题 303

9.11.1从其他网页中抽取 303

9.11.2析取还是可选 303

9.11.3集合类型还是元组类型 304

9.11.4标注与整合 304

9.11.5领域相关的抽取 305

9.12讨论 305

文献评注 305

参考文献 306

第10章 信息集成 310

10.1什么是模式匹配 310

10.2模式匹配的预处理工作 312

10.3模式层的匹配 313

10.3.1基于语言学的算法 313

10.3.2基于模式约束的算法 314

10.4基于域和实例层的匹配 315

10.5综合多种相似度 317

10.6 1:m匹配 317

10.7一些其他问题 318

10.7.1重用已有的匹配结果 318

10.7.2大量模式的匹配 319

10.7.3模式匹配的结果 319

10.7.4用户交互 320

10.8 Web查询界面的集成 320

10.8.1一个基于聚类的方法 322

10.8.2基于相互关系的方法 324

10.8.3基于实例的方法 326

10.9构建一个统一的全局 328

查询界面 328

10.9.1结构恰当和合并算法 328

10.9.2词汇恰当 330

10.9.3实例恰当 331

文献评注 331

参考文献 331

第11章 观点挖掘与情感分析 335

11.1观点挖掘问题 335

11.1.1问题定义 336

11.1.2基于方面的观点摘要 340

11.2文本情感分类 341

11.2.1基于监督学习的分类 342

11.2.2基于无监督学习的分类 343

11.3句子主观性与情感分类 345

11.4观点词汇扩展 347

11.5基于方面的观点挖掘 349

11.5.1基于方面的情感分类 349

11.5.2观点的基本规则 351

11.5.3方面抽取 353

11.5.4同时扩展观点词汇和抽取方面 355

11.6比较性观点挖掘 358

11.6.1问题定义 358

11.6.2等级比较性语句的识别 360

11.6.3偏好实体识别 360

11.7其他的一些问题 362

11.8观点搜索 365

11.9观点欺诈检测 367

11.9.1观点欺诈的目标和行为 367

11.9.2隐藏技巧 368

11.9.3基于监督学习的欺诈检测 369

11.9.4基于异常行为的欺诈检测 370

11.9.5群组欺诈检测 372

11.10评论的效用 372

文献评注 373

参考文献 374

第12章 Web使用挖掘 384

12.1数据收集和预处理 385

12.1.1数据的来源和类型 385

12.1.2 Web使用记录数据预处理的关键元素 388

12.2 Web使用挖掘的数据建模 392

12.3 Web使用模式的发现和分析 395

12.3.1会话和访问者分析 395

12.3.2聚类分析和访问者分割 396

12.3.3关联及相关度分析 399

12.3.4序列和导航模式分析 399

12.3.5基于Web用户事务的分类和预测 402

12.4推荐系统和协同过滤 402

12.4.1推荐问题 402

12.4.2基于内容的推荐 403

12.4.3协同过滤:k-近邻(kNN) 404

12.4.4协同过滤:使用关联规则 406

12.4.5协同过滤:矩阵分解 408

12.5查询日志挖掘 412

12.5.1数据源、特征和挑战 413

12.5.2查询日志数据准备 414

12.5.3查询日志数据模型 416

12.5.4查询日志特征提取 419

12.5.5查询日志挖掘应用 419

12.5.6查询日志挖掘方法 421

12.6计算广告学 423

12.7讨论和展望 426

文献评注 426

参考文献 427