Web数据挖掘 第2版PDF电子书下载
- 电子书积分:14 积分如何计算积分?
- 作 者:(美)刘兵著;俞勇等译
- 出 版 社:北京:清华大学出版社
- 出版年份:2009
- ISBN:7302298700
- 页数:434 页
第1章 概述 1
1.1什么是万维网 1
1.2万维网和互联网的历史简述 2
1.3 Web数据挖掘 3
1.3.1什么是数据挖掘 4
1.3.2什么是Web数据挖掘 5
1.4各章概要 6
1.5如何阅读本书 8
文献评注 9
参考文献 9
第1部分 数据挖掘基础 13
第2章 关联规则和序列模式 13
2.1关联规则的基本概念 13
2.2 Apriori算法 15
2.2.1频繁项目集生成 15
2.2.2关联规则生成 18
2.3关联规则挖掘的数据格式 20
2.4多最小支持度的关联 21
规则挖掘 21
2.4.1扩展模型 22
2.4.2挖掘算法 23
2.4.3规则生成 27
2.5分类关联规则挖掘 28
2.5.1问题描述 28
2.5.2挖掘算法 29
2.5.3多最小支持度分类关联规则挖掘 31
2.6序列模式的基本概念 32
2.7基于GSP挖掘序列模式 34
2.7.1 GSP算法 34
2.7.2多最小支持度挖掘 35
2.8基于PrefixSpan算法的 38
序列模式挖掘 38
2.8.1 PrefixSpan算法 39
2.8.2多最小支持度挖掘 40
2.9从序列模式中产生规则 42
2.9.1序列规则 42
2.9.2标签序列规则 42
2.9.3分类序列规则 43
文献评注 43
参考文献 45
第3章 监督学习 49
3.1基本概念 49
3.2决策树归纳 52
3.2.1学习算法 53
3.2.2混杂度函数 54
3.2.3处理连续属性 57
3.2.4其他一些问题 58
3.3评估分类器 60
3.3.1评估方法 61
3.3.2查准率、查全率、F-score和平衡点(Breakeven Point) 62
3.3.3受试者工作特征曲线 63
3.3.4提升曲线 65
3.4规则归纳 66
3.4.1顺序化覆盖 66
3.4.2规则学习:Lea-One-Rule函数 68
3.4.3讨论 70
3.5基于关联规则的分类 71
3.5.1使用类关联规则进行分类 71
3.5.2使用类关联规则作为分类属性 74
3.5.3使用古典的关联规则分类 74
3.6朴素贝叶斯分类 75
3.7朴素贝叶斯文本分类 78
3.7.1概率框架 78
3.7.2朴素贝叶斯模型 79
3.7.3讨论 81
3.8支持向量机 81
3.8.1线性支持向量机:可分的情况 82
3.8.2线性支持向量机:数据不可分的情况 86
3.8.3非线性支持向量机:核方法 88
总结 90
3.9 k-近邻学习 91
3.10分类器的集成 92
3.10.1 Bagging 92
3.10.2 Boosting 92
文献评注 93
参考文献 94
第4章 无监督学习 98
4.1基本概念 98
4.2 k-均值聚类 100
4.2.1 k-均值算法 100
4.2.2 k-均值算法的硬盘版本 102
4.2.3优势和劣势 102
4.3聚类的表示 105
4.3.1聚类的一般表示方法 106
4.3.2任意形状的聚类 106
4.4层次聚类 107
4.4.1单连结方法 108
4.4.2全连结方法 108
4.4.3平均连结方法 109
4.4.4优势和劣势 109
4.5距离函数 110
4.5.1数字属性 110
4.5.2布尔属性和名词性属性 110
4.5.3文本文档 112
4.6数据标准化 112
4.7混合属性的处理 114
4.8采用哪种聚类算法 115
4.9聚类的评估 115
4.10发现数据区域和数据空洞 118
文献评注 119
参考文献 121
第5章 部分监督学习 124
5.1从已标注数据和无标注 124
数据中学习 124
5.1.1使用朴素贝叶斯分类器的EM算法 125
5.1.2 Co-Training 128
5.1.3自学习 129
5.1.4直推式支持向量机 130
5.1.5基于图的方法 131
5.1.6讨论 133
5.2从正例和无标注数据中学习 133
5.2.1 PU学习的应用 134
5.2.2理论基础 135
5.2.3建立分类器:两步方法 137
5.2.4建立分类器:偏置SVM 142
5.2.5建立分类器:概率估计 144
5.2.6讨论 145
附录:朴素贝叶斯EM算法的推导 145
文献评注 147
参考文献 148
第2部分 Web挖掘 153
第6章 信息检索与Web搜索 153
6.1信息检索中的基本概念 154
6.2信息检索模型 156
6.2.1布尔模型 156
6.2.2向量空间模型 157
6.2.3统计语言模型 159
6.3关联性反馈 160
6.4评估标准 162
6.5文本和网页的预处理 164
6.5.1无用词移除 165
6.5.2词干提取 165
6.5.3其他文本预处理步骤 165
6.5.4网页预处理步骤 166
6.5.5副本探测 167
6.6倒排索引及其压缩 168
6.6.1倒排索引 168
6.6.2使用倒排索引搜索 169
6.6.3索引的建立 170
6.6.4索引的压缩 171
6.7隐式语义索引 175
6.7.1奇异值分解(singular value decomposition) 176
6.7.2查询和检索 177
6.7.3实例 178
6.7.4讨论 181
6.8 Web搜索 181
6.9元搜索引擎和组合多种排序 183
6.9.1使用相似度分数的合并 184
6.9.2使用排名位置的合并 184
6.10网络作弊 186
6.10.1内容作弊 187
6.10.2链接作弊 187
6.10.3隐藏技术 188
6.10.4抵制作弊 189
文献评注 190
参考文献 191
第7章 社会网络分析 195
7.1社会网络分析 196
7.1.1中心性 196
7.1.2权威 198
7.2同引分析和引文耦合 199
7.2.1同引分析 200
7.2.2引文耦合 200
7.3 PageRank 201
7.3.1 PageRank算法 201
7.3.2 PageRank算法的优点和缺点 207
7.3.3 Timed PageRank和Recency Search 207
7.4 HITS 208
7.4.1 HITS算法 209
7.4.2寻找其他的特征向量 211
7.4.3同引分析和引文耦合的关系 211
7.4.4 HITS算法的优点和缺点 212
7.5社区发现 213
7.5.1问题定义 213
7.5.2二分核心社区 215
7.5.3最大流社区 216
7.5.4基于中介性的电子邮件社区 218
7.5.5命名实体的重叠社区 219
文献评注 220
参考文献 220
第8章 Web爬取 225
8.1一个简单爬虫算法 225
8.1.1宽度优先爬虫 227
8.1.2带偏好的爬虫 227
8.2实现议题 228
8.2.1网页获取 228
8.2.2网页解析 228
8.2.3删除无用词并提取词干 230
8.2.4链接提取和规范化 230
8.2.5爬虫陷阱 232
8.2.6网页库 232
8.2.7并发性 233
8.3通用爬虫 234
8.3.1可扩展性 234
8.3.2覆盖度、新鲜度和重要度 235
8.4限定爬虫 236
8.5主题爬虫 238
8.5.1主题本地性和线索 240
8.5.2最优优先变种 243
8.5.3自适应 246
8.6评价标准 249
8.7爬虫道德和冲突 253
8.8最新进展 255
文献评注 256
参考文献 257
第9章 结构化数据抽取:包装器生成 261
9.1预备知识 261
9.1.1两种富含数据的网页 262
9.1.2数据模型 263
9.1.3数据实例的HTML标记编码 265
9.2包装器归纳 266
9.2.1从一张网页抽取 267
9.2.2学习抽取规则 269
9.2.3识别提供信息的样例 272
9.2.4包装器维护 273
9.3基于实例的包装器学习 273
9.4自动包装器生成中的一些问题 276
9.4.1两个抽取问题 276
9.4.2作为正则表达式的模式 277
9.5字符串匹配和树匹配 277
9.5.1字符串编辑距离 278
9.5.2树匹配 279
9.6多重对齐 282
9.6.1中星方法 283
9.6.2部分树对齐 284
9.7构建DOM树 287
9.8基于列表页的抽取:平坦数据记录 288
9.8.1有关数据记录的两个观察结果 289
9.8.2挖掘数据区域 290
9.8.3从数据区域中识别数据记录 294
9.8.4数据项对齐与抽取 294
9.8.5利用视觉信息 295
9.8.6一些其他技术 295
9.9基于列表页的抽取:嵌套数据记录 296
9.10基于多张网页的抽取 301
9.10.1采用前几节中的技术 301
9.10.2 RoadRunner算法 301
9.11一些其他问题 303
9.11.1从其他网页中抽取 303
9.11.2析取还是可选 303
9.11.3集合类型还是元组类型 304
9.11.4标注与整合 304
9.11.5领域相关的抽取 305
9.12讨论 305
文献评注 305
参考文献 306
第10章 信息集成 310
10.1什么是模式匹配 310
10.2模式匹配的预处理工作 312
10.3模式层的匹配 313
10.3.1基于语言学的算法 313
10.3.2基于模式约束的算法 314
10.4基于域和实例层的匹配 315
10.5综合多种相似度 317
10.6 1:m匹配 317
10.7一些其他问题 318
10.7.1重用已有的匹配结果 318
10.7.2大量模式的匹配 319
10.7.3模式匹配的结果 319
10.7.4用户交互 320
10.8 Web查询界面的集成 320
10.8.1一个基于聚类的方法 322
10.8.2基于相互关系的方法 324
10.8.3基于实例的方法 326
10.9构建一个统一的全局 328
查询界面 328
10.9.1结构恰当和合并算法 328
10.9.2词汇恰当 330
10.9.3实例恰当 331
文献评注 331
参考文献 331
第11章 观点挖掘与情感分析 335
11.1观点挖掘问题 335
11.1.1问题定义 336
11.1.2基于方面的观点摘要 340
11.2文本情感分类 341
11.2.1基于监督学习的分类 342
11.2.2基于无监督学习的分类 343
11.3句子主观性与情感分类 345
11.4观点词汇扩展 347
11.5基于方面的观点挖掘 349
11.5.1基于方面的情感分类 349
11.5.2观点的基本规则 351
11.5.3方面抽取 353
11.5.4同时扩展观点词汇和抽取方面 355
11.6比较性观点挖掘 358
11.6.1问题定义 358
11.6.2等级比较性语句的识别 360
11.6.3偏好实体识别 360
11.7其他的一些问题 362
11.8观点搜索 365
11.9观点欺诈检测 367
11.9.1观点欺诈的目标和行为 367
11.9.2隐藏技巧 368
11.9.3基于监督学习的欺诈检测 369
11.9.4基于异常行为的欺诈检测 370
11.9.5群组欺诈检测 372
11.10评论的效用 372
文献评注 373
参考文献 374
第12章 Web使用挖掘 384
12.1数据收集和预处理 385
12.1.1数据的来源和类型 385
12.1.2 Web使用记录数据预处理的关键元素 388
12.2 Web使用挖掘的数据建模 392
12.3 Web使用模式的发现和分析 395
12.3.1会话和访问者分析 395
12.3.2聚类分析和访问者分割 396
12.3.3关联及相关度分析 399
12.3.4序列和导航模式分析 399
12.3.5基于Web用户事务的分类和预测 402
12.4推荐系统和协同过滤 402
12.4.1推荐问题 402
12.4.2基于内容的推荐 403
12.4.3协同过滤:k-近邻(kNN) 404
12.4.4协同过滤:使用关联规则 406
12.4.5协同过滤:矩阵分解 408
12.5查询日志挖掘 412
12.5.1数据源、特征和挑战 413
12.5.2查询日志数据准备 414
12.5.3查询日志数据模型 416
12.5.4查询日志特征提取 419
12.5.5查询日志挖掘应用 419
12.5.6查询日志挖掘方法 421
12.6计算广告学 423
12.7讨论和展望 426
文献评注 426
参考文献 427
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019