《Web数据挖掘》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:Bing Liu著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2009
  • ISBN:9787302193388
  • 页数:375 页
图书介绍:过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。

第一部分 数据挖掘基础 3

第1章 概述 3

1.1什么是万维网 3

1.2万维网和互联网的历史简述 4

1.3 Web数据挖掘 5

1.3.1什么是数据挖掘 6

1.3.2什么是Web数据挖掘 7

1.4各章概要 8

1.5如何阅读本书 10

文献评注 10

第2章 关联规则和序列模式 12

2.1关联规则的基本概念 12

2.2 Apriori算法 14

2.2.1频繁项目集生成 14

2.2.2关联规则生成 17

2.3关联规则挖掘的数据格式 19

2.4多最小支持度的关联规则挖掘 20

2.4.1扩展模型 21

2.4.2挖掘算法 22

2.4.3规则生成 26

2.5分类关联规则挖掘 27

2.5.1问题描述 27

2.5.2挖掘算法 28

2.5.3多最小支持度分类关联规则挖掘 31

2.6序列模式的基本概念 31

2.7基于GSP挖掘序列模式 32

2.7.1 GSP算法 33

2.7.2多最小支持度挖掘 34

2.8基于PrefixSpan算法的序列模式挖掘 37

2.8.1 PrefixSpan算法 38

2.8.2多最小支持度挖掘 39

2.9从序列模式中产生规则 41

2.9.1序列规则 41

2.9.2标签序列规则 41

2.9.3分类序列规则 42

文献评注 42

第3章 监督学习 45

3.1基本概念 45

3.2决策树推理 48

3.2.l学习算法 49

3.2.2混杂度函数 50

3.2.3处理连续属性 53

3.2.4其他一些问题 54

3.3评估分类器 56

3.3.1评估方法 56

3.3.2查准率、查全率、F-score和平衡点(Breakeven Point) 57

3.4规则推理 59

3.4.1序列化覆盖 59

3.4.2规则学习:Learn-One-Rule函数 61

3.4.3讨论 63

3.5基于关联规则的分类 63

3.5.1使用类关联规则进行分类 64

3.5.2使用类关联规则作为分类属性 66

3.5.3使用古典的关联规则分类 66

3.6朴素贝叶斯分类 67

3.7朴素贝叶斯文本分类 70

3.7.1概率框架 70

3.7.2朴素贝叶斯模型 71

3.7.3讨论 73

3.8支持向量机 73

3.8.1线性支持向量机:可分的情况 74

3.8.2线性支持向量机:数据不可分的情况 78

3.8.3非线性支持向量机:核方法 80

3.9 k-近邻学习 82

3.10分类器的集成 83

3.10.1 Bagging 83

3.10.2 Boosting 84

文献评注 84

第4章 无监督学习 87

4.1基本概念 87

4.2 k-均值聚类 89

4.2.1 k-均值算法 89

4.2.2 k-均值算法的硬盘版本 91

4.2.3优势和劣势 92

4.3聚类的表示 95

4.3.1聚类的一般表示方法 95

4.3.2任意形状的聚类 95

4.4层次聚类 96

4.4.1单链接方法 97

4.4.2全链接方法 98

4.4.3平均链接方法 98

4.4.4优势和劣势 98

4.5距离函数 99

4.5.1数值的属性(Numeric Attributes) 99

4.5.2布尔属性和符号属性(Binary and Nominal Attributes) 99

4.5.3文本文档 101

4.6数据标准化 101

4.7混合属性的处理 103

4.8采用哪种聚类算法 104

4.9聚类的评估 104

4.10发现数据区域和数据空洞 106

文献评注 108

第5章 部分监督学习 110

5.1从已标注数据和无标注数据中学习 110

5.1.1使用朴素贝叶斯分类器的EM算法 111

5.1.2 Co-Training 114

5.1.3自学习 115

5.1.4直推式支持向量机 116

5.1.5基于图的方法 117

5.1.6讨论 119

5.2从正例和无标注数据中学习 119

5.2.1 PU学习的应用 120

5.2.2理论基础 121

5.2.3建立分类器:两步方法 122

5.2.4建立分类器:直接方法 127

5.2.5讨论 128

附录:朴素贝叶斯EM算法的推导 129

文献评注 131

第二部分 Web挖掘 135

第6章 信息检索与Web搜索 135

6.1信息检索中的基本概念 136

6.2信息检索模型 138

6.2.1布尔模型 138

6.2.2向量空间模型 139

6.2.3统计语言模型 141

6.3关联性反馈 142

6.4评估标准 143

6.5文本和网页的预处理 147

6.5.1停用词移除 147

6.5.2词干提取 147

6.5.3其他文本预处理步骤 148

6.5.4网页预处理步骤 148

6.5.5副本探测 149

6.6倒排索引及其压缩 150

6.6.1倒排索引 150

6.6.2使用倒排索引搜索 151

6.6.3索引的建立 152

6.6.4索引的压缩 153

6.7隐式语义索引 157

6.7.1奇异值分解 158

6.7.2查询和检索 159

6.7.3实例 160

6.7.4讨论 163

6.8 Web搜索 163

6.9元搜索引擎和组合多种排序 165

6.9.1使用相似度分数的合并 166

6.9.2使用排名位置的合并 166

6.10网络作弊 168

6.10.1内容作弊 169

6.10.2链接作弊 169

6.10.3隐藏技术 170

6.10.4抵制作弊 171

文献评注 172

第7章 链接分析 174

7.1社会关系网分析 175

7.1.1中心性 175

7.1.2权威 177

7.2同引分析和引文耦合 178

7.2.1同引分析 178

7.2.2引文耦合 179

7.3 PageRank 179

7.3.1 PageRank算法 180

7.3.2 PageRank算法的优点和缺点 185

7.3.3 Timed PageRank 185

7.4 HITS 186

7.4.1 HITS算法 187

7.4.2寻找其他的特征向量 189

7.4.3同引分析和引文耦合的关系 189

7.4.4 HITS算法的优点和缺点 189

7.5社区发现 191

7.5.1问题定义 191

7.5.2二分核心社区 192

7.5.3最大流社区 193

7.5.4基于中介性的电子邮件社区 195

7.5.5命名实体的重叠社区 196

文献评注 197

第8章 Web爬取 199

8.1一个简单爬虫算法 199

8.1.1宽度优先爬虫 201

8.1.2带偏好的爬虫 201

8.2实现议题 202

8.2.1网页获取 202

8.2.2网页解析 202

8.2.3删除无用词并提取词干 204

8.2.4链接提取和规范化 204

8.2.5爬虫陷阱 206

8.2.6网页库 206

8.2.7并发性 207

8.3通用爬虫 208

8.3.1可扩展性 208

8.3.2覆盖度、新鲜度和重要度 209

8.4限定爬虫 210

8.5主题爬虫 212

8.5.1主题本地性和线索 213

8.5.2最优优先变种 217

8.5.3自适应 219

8.6评价标准 223

8.7爬虫道德和冲突 226

8.8最新进展 228

文献评注 230

第9章 结构化数据抽取:包装器生成 231

9.1预备知识 231

9.1.1两种富含数据的网页 232

9.1.2数据模型 233

9.1.3数据实例的HTML标记编码 235

9.2包装器归纳 236

9.2.1从一张网页抽取 237

9.2.2学习抽取规则 238

9.2.3识别提供信息的样例 242

9.2.4包装器维护 242

9.3基于实例的包装器学习 243

9.4自动包装器生成中的一些问题 245

9.4.1两个抽取问题 246

9.4.2作为正则表达式的模式 246

9.5字符串匹配和树匹配 247

9.5.1字符串编辑距离 247

9.5.2树匹配 249

9.6多重对齐 252

9.6.1中星方法 252

9.6.2部分树对齐 253

9.7构建DOM树 257

9.8基于列表页的抽取:平坦数据记录 258

9.8.1有关数据记录的两个观察结果 258

9.8.2挖掘数据区域 259

9.8.3从数据区域中识别数据记录 263

9.8.4数据项对齐与抽取 263

9.8.5利用视觉信息 264

9.8.6一些其他技术 264

9.9基于列表页的抽取:嵌套数据记录 265

9.10基于多张网页的抽取 269

9.10.1采用前几节中的技术 270

9.10.2 RoadRunner算法 270

9.11一些其他问题 271

9.11.1从其他网页中抽取 271

9.11.2析取还是可选 272

9.11.3一个集合类型还是一个元组类型 273

9.11.4标注与整合 273

9.11.5领域相关的抽取 273

9.12讨论 274

文献评注 274

第10章 信息集成 276

10.1什么是样式表匹配 277

10.2样式表匹配的预处理工作 278

10.3样式表层次的匹配 279

10.3.1基于语言学的算法 279

10.3.2基于样式表中限制的算法 280

10.4基于领域和实例层次的匹配 280

10.5不同相似度的联合 282

10.6 l:m匹配 283

10.7其他问题 284

10.7.1重用以前的匹配结果 284

10.7.2大量样式表的匹配 285

10.7.3样式表匹配的结果 285

10.7.4用户交互 285

10.8 Web搜索界面的集成 285

10.8.1基于聚类的算法 287

10.8.2基于互关系的方法 289

10.8.3基于实例的方法 290

10.9构建一个全局的搜索界面 292

10.9.1结构上的正确性和合并算法 293

10.9.2词汇的正确性 294

10.9.3实例的正确性 295

文献评注 295

第11章 观点挖掘 296

11.1意见分类 297

11.1.1基于意见短语的分类 297

11.1.2采用文本分类方法进行意见分类 299

11.1.3基于评分函数进行分类 299

11.2基于特征的观点挖掘和摘要 300

11.2.1问题定义 301

11.2.2对象特征抽取 305

11.2.3格式1中正面和负面评价部分的特征抽取 306

11.2.4符合格式2和3的评审上的特征抽取 308

11.2.5观点倾向分类 309

11.3比较性句子和比较关系挖掘 310

11.3.1问题定义 311

11.3.2等级比较性语句的识别 312

11.3.3比较关系的抽取 314

11.4观点搜索 315

11.5观点欺诈 316

11.5.1观点欺诈的目标和行为 317

11.5.2欺诈和欺诈者的种类 317

11.5.3隐藏技巧 318

11.5.4欺诈检测 318

文献评注 320

第12章 Web使用挖掘 322

12.1数据收集和预处理 323

12.1.1数据的来源和类型 323

12.1.2 Web使用记录数据预处理的关键元素 326

12.2 Web使用记录挖掘的数据建模 331

12.3 Web用法模式的发现和分析 334

12.3.1会话和访问者分析 334

12.3.2聚类分析和访问者分割 334

12.3.3关联及相关度分析 337

12.3.4序列和导航模式分析 340

12.3.5基于Web用户事务的分类和预测 342

12.4讨论和展望 343

文献评注 344

参考文献 345