世界著名计算机教材精选 Web数据挖掘 第2版PDF电子书下载
- 电子书积分:14 积分如何计算积分?
- 作 者:刘兵著;俞勇等译
- 出 版 社:北京:清华大学出版社
- 出版年份:2013
- ISBN:9787302298700
- 页数:434 页
第1章 概述 1
1.1 什么是万维网 1
1.2 万维网和互联网的历史简述 2
1.3 Web数据挖掘 3
1.3.1 什么是数据挖掘 4
1.3.2 什么是Web数据挖掘 5
1.4 各章概要 6
1.5 如何阅读本书 8
文献评注 9
参考文献 9
第1部分 数据挖掘基础 13
第2章 关联规则和序列模式 13
2.1 关联规则的基本概念 13
2.2 Apriori算法 15
2.2.1 频繁项目集生成 15
2.2.2 关联规则生成 18
2.3 关联规则挖掘的数据格式 20
2.4 多最小支持度的关联规则挖掘 21
2.4.1 扩展模型 22
2.4.2 挖掘算法 23
2.4.3 规则生成 27
2.5 分类关联规则挖掘 28
2.5.1 问题描述 28
2.5.2 挖掘算法 29
2.5.3 多最小支持度分类关联规则挖掘 31
2.6 序列模式的基本概念 32
2.7 基于GSP挖掘序列模式 34
2.7.1 GSP算法 34
2.7.2 多最小支持度挖掘 35
2.8 基于PrefixSpan算法的序列模式挖掘 38
2.8.1 PrefixSpan算法 39
2.8.2 多最小支持度挖掘 40
2.9 从序列模式中产生规则 42
2.9.1 序列规则 42
2.9.2 标签序列规则 42
2.9.3 分类序列规则 43
文献评注 43
参考文献 45
第3章 监督学习 49
3.1 基本概念 49
3.2 决策树归纳 52
3.2.1 学习算法 53
3.2.2 混杂度函数 54
3.2.3 处理连续属性 57
3.2.4 其他一些问题 58
3.3 评估分类器 60
3.3.1 评估方法 61
3.3.2 查准率、查全率、F-score和平衡点(Breakeven Point) 62
3.3.3 受试者工作特征曲线 63
3.3.4 提升曲线 65
3.4 规则归纳 66
3.4.1 顺序化覆盖 66
3.4.2 规则学习:Learn-One-Rule函数 68
3.4.3 讨论 70
3.5 基于关联规则的分类 71
3.5.1 使用类关联规则进行分类 71
3.5.2 使用类关联规则作为分类属性 74
3.5.3 使用古典的关联规则分类 74
3.6 朴素贝叶斯分类 75
3.7 朴素贝叶斯文本分类 78
3.7.1 概率框架 78
3.7.2 朴素贝叶斯模型 79
3.7.3 讨论 81
3.8 支持向量机 81
3.8.1 线性支持向量机:可分的情况 82
3.8.2 线性支持向量机:数据不可分的情况 86
3.8.3 非线性支持向量机:核方法 88
总结 90
3.9 k-近邻学习 91
3.10 分类器的集成 92
3.10.1 Bagging 92
3.10.2 Boosting 92
文献评注 93
参考文献 94
第4章 无监督学习 98
4.1 基本概念 98
4.2 k-均值聚类 100
4.2.1 k-均值算法 100
4.2.2 k-均值算法的硬盘版本 102
4.2.3 优势和劣势 102
4.3 聚类的表示 105
4.3.1 聚类的一般表示方法 106
4.3.2 任意形状的聚类 106
4.4 层次聚类 107
4.4.1 单连结方法 108
4.4.2 全连结方法 108
4.4.3 平均连结方法 109
4.4.4 优势和劣势 109
4.5 距离函数 110
4.5.1 数字属性 110
4.5.2 布尔属性和名词性属性 110
4.5.3 文本文档 112
4.6 数据标准化 112
4.7 混合属性的处理 114
4.8 采用哪种聚类算法 115
4.9 聚类的评估 115
4.10 发现数据区域和数据空洞 118
文献评注 119
参考文献 121
第5章 部分监督学习 124
5.1 从已标注数据和无标注数据中学习 124
5.1.1 使用朴素贝叶斯分类器的EM算法 125
5.1.2 Co-Training 128
5.1.3 自学习 129
5.1.4 直推式支持向量机 130
5.1.5 基于图的方法 131
5.1.6 讨论 133
5.2 从正例和无标注数据中学习 133
5.2.1 PU学习的应用 134
5.2.2 理论基础 135
5.2.3 建立分类器:两步方法 137
5.2.4 建立分类器:偏置SVM 142
5.2.5 建立分类器:概率估计 144
5.2.6 讨论 145
附录:朴素贝叶斯EM算法的推导 145
文献评注 147
参考文献 148
第2部分 Web挖掘 153
第6章 信息检索与Web搜索 153
6.1 信息检索中的基本概念 154
6.2 信息检索模型 156
6.2.1 布尔模型 156
6.2.2 向量空间模型 157
6.2.3 统计语言模型 159
6.3 关联性反馈 160
6.4 评估标准 162
6.5 文本和网页的预处理 164
6.5.1 无用词移除 165
6.5.2 词干提取 165
6.5.3 其他文本预处理步骤 165
6.5.4 网页预处理步骤 166
6.5.5 副本探测 167
6.6 倒排索引及其压缩 168
6.6.1 倒排索引 168
6.6.2 使用倒排索引搜索 169
6.6.3 索引的建立 170
6.6.4 索引的压缩 171
6.7 隐式语义索引 175
6.7.1 奇异值分解(singular value decomposition) 176
6.7.2 查询和检索 177
6.7.3 实例 178
6.7.4 讨论 181
6.8 Web搜索 181
6.9 元搜索引擎和组合多种排序 183
6.9.1 使用相似度分数的合并 184
6.9.2 使用排名位置的合并 184
6.10 网络作弊 186
6.10.1 内容作弊 187
6.10.2 链接作弊 187
6.10.3 隐藏技术 188
6.10.4 抵制作弊 189
文献评注 190
参考文献 191
第7章 社会网络分析 195
7.1 社会网络分析 196
7.1.1 中心性 196
7.1.2 权威 198
7.2 同引分析和引文耦合 199
7.2.1 同引分析 200
7.2.2 引文耦合 200
7.3 PageRank 201
7.3.1 PageRank算法 201
7.3.2 PageRank算法的优点和缺点 207
7.3.3 Timed PageRank和Recency Search 207
7.4 HITS 208
7.4.1 HITS算法 209
7.4.2 寻找其他的特征向量 211
7.4.3 同引分析和引文耦合的关系 211
7.4.4 HITS算法的优点和缺点 212
7.5 社区发现 213
7.5.1 问题定义 213
7.5.2 二分核心社区 215
7.5.3 最大流社区 216
7.5.4 基于中介性的电子邮件社区 218
7.5.5 命名实体的重叠社区 219
文献评注 220
参考文献 220
第8章 Web爬取 225
8.1 一个简单爬虫算法 225
8.1.1 宽度优先爬虫 227
8.1.2 带偏好的爬虫 227
8.2 实现议题 228
8.2.1 网页获取 228
8.2.2 网页解析 228
8.2.3 删除无用词并提取词干 230
8.2.4 链接提取和规范化 230
8.2.5 爬虫陷阱 232
8.2.6 网页库 232
8.2.7 并发性 233
8.3 通用爬虫 234
8.3.1 可扩展性 234
8.3.2 覆盖度、新鲜度和重要度 235
8.4 限定爬虫 236
8.5 主题爬虫 238
8.5.1 主题本地性和线索 240
8.5.2 最优优先变种 243
8.5.3 自适应 246
8.6 评价标准 249
8.7 爬虫道德和冲突 253
8.8 最新进展 255
文献评注 256
参考文献 257
第9章 结构化数据抽取:包装器生成 261
9.1 预备知识 261
9.1.1 两种富含数据的网页 262
9.1.2 数据模型 263
9.1.3 数据实例的HTML标记编码 265
9.2 包装器归纳 266
9.2.1 从一张网页抽取 267
9.2.2 学习抽取规则 269
9.2.3 识别提供信息的样例 272
9.2.4 包装器维护 273
9.3 基于实例的包装器学习 273
9.4 自动包装器生成中的一些问题 276
9.4.1 两个抽取问题 276
9.4.2 作为正则表达式的模式 277
9.5 字符串匹配和树匹配 277
9.5.1 字符串编辑距离 278
9.5.2 树匹配 279
9.6 多重对齐 282
9.6.1 中星方法 283
9.6.2 部分树对齐 284
9.7 构建DOM树 287
9.8 基于列表页的抽取:平坦数据记录 288
9.8.1 有关数据记录的两个观察结果 289
9.8.2 挖掘数据区域 290
9.8.3 从数据区域中识别数据记录 294
9.8.4 数据项对齐与抽取 294
9.8.5 利用视觉信息 295
9.8.6 一些其他技术 295
9.9基于列表页的抽取:嵌套数据记录 296
9.10 基于多张网页的抽取 301
9.10.1 采用前几节中的技术 301
9.10.2 RoadRunner算法 301
9.11 一些其他问题 303
9.11.1 从其他网页中抽取 303
9.11.2 析取还是可选 303
9.11.3 集合类型还是元组类型 304
9.11.4 标注与整合 304
9.11.5 领域相关的抽取 305
9.12 讨论 305
文献评注 305
参考文献 306
第10章 信息集成 310
10.1 什么是模式匹配 310
10.2 模式匹配的预处理工作 312
10.3 模式层的匹配 313
10.3.1 基于语言学的算法 313
10.3.2 基于模式约束的算法 314
10.4 基于域和实例层的匹配 315
10.5 综合多种相似度 317
10.6 1:m匹配 317
10.7 一些其他问题 318
10.7.1 重用已有的匹配结果 318
10.7.2 大量模式的匹配 319
10.7.3 模式匹配的结果 319
10.7.4 用户交互 320
10.8 Web查询界面的集成 320
10.8.1 一个基于聚类的方法 322
10.8.2 基于相互关系的方法 324
10.8.3 基于实例的方法 326
10.9 构建一个统一的全局查询界面 328
10.9.1 结构恰当和合并算法 328
10.9.2 词汇恰当 330
10.9.3 实例恰当 331
文献评注 331
参考文献 331
第11章 观点挖掘与情感分析 335
11.1 观点挖掘问题 335
11.1.1 问题定义 336
11.1.2 基于方面的观点摘要 340
11.2 文本情感分类 341
11.2.1 基于监督学习的分类 342
11.2.2 基于无监督学习的分类 343
11.3 句子主观性与情感分类 345
11.4 观点词汇扩展 347
11.5 基于方面的观点挖掘 349
11.5.1 基于方面的情感分类 349
11.5.2 观点的基本规则 351
11.5.3 方面抽取 353
11.5.4 同时扩展观点词汇和抽取方面 355
11.6 比较性观点挖掘 358
11.6.1 问题定义 358
11.6.2 等级比较性语句的识别 360
11.6.3 偏好实体识别 360
11.7 其他的一些问题 362
11.8 观点搜索 365
11.9 观点欺诈检测 367
11.9.1 观点欺诈的目标和行为 367
11.9.2 隐藏技巧 368
11.9.3 基于监督学习的欺诈检测 369
11.9.4 基于异常行为的欺诈检测 370
11.9.5 群组欺诈检测 372
11.10 评论的效用 372
文献评注 373
参考文献 374
第12章 Web使用挖掘 384
12.1 数据收集和预处理 385
12.1.1 数据的来源和类型 385
12.1.2 Web使用记录数据预处理的关键元素 388
12.2 Web使用挖掘的数据建模 392
12.3 Web使用模式的发现和分析 395
12.3.1 会话和访问者分析 395
12.3.2 聚类分析和访问者分割 396
12.3.3 关联及相关度分析 399
12.3.4 序列和导航模式分析 399
12.3.5 基于Web用户事务的分类和预测 402
12.4 推荐系统和协同过滤 402
12.4.1 推荐问题 402
12.4.2 基于内容的推荐 403
12.4.3 协同过滤:k-近邻(kNN) 404
12.4.4 协同过滤:使用关联规则 406
12.4.5 协同过滤:矩阵分解 408
12.5 查询日志挖掘 412
12.5.1 数据源、特征和挑战 413
12.5.2 查询日志数据准备 414
12.5.3 查询日志数据模型 416
12.5.4 查询日志特征提取 419
12.5.5 查询日志挖掘应用 419
12.5.6 查询日志挖掘方法 421
12.6 计算广告学 423
12.7 讨论和展望 426
文献评注 426
参考文献 427
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《全国高等中医药行业“十三五”创新教材 中医药学概论》翟华强 2019
- 《MBA大师.2020年MBAMPAMPAcc管理类联考专用辅导教材 数学考点精讲》(中国)董璞 2019
- 《党员干部理论学习培训教材 理论热点问题党员干部学习辅导》(中国)胡磊 2018
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《“十三五”规划教材 中药鉴定学实验 供中药学 药学及相关专业使用 第2版》吴啟南 2018
- 《莎士比亚戏剧精选集》(英)威廉·莎士比亚(William Shakespeare)著 2020
- 《危险化学品经营单位主要负责人和安全生产管理人员安全培训教材》李隆庭,徐一星主编 2012
- 《21世纪法学系列教材 配套辅导用书 行政法与行政诉讼法练习题集 第5版》李元起主编 2018
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《王蒙文集 新版 35 评点《红楼梦》 上》王蒙著 2020
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《燕堂夜话》蒋忠和著 2019
- 《经久》静水边著 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《微表情密码》(波)卡西亚·韦佐夫斯基,(波)帕特里克·韦佐夫斯基著 2019
- 《看书琐记与作文秘诀》鲁迅著 2019
- 《酒国》莫言著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019