Web数据挖掘PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:Bing Liu著
- 出 版 社:北京:清华大学出版社
- 出版年份:2009
- ISBN:9787302193388
- 页数:375 页
第一部分 数据挖掘基础 3
第1章 概述 3
1.1什么是万维网 3
1.2万维网和互联网的历史简述 4
1.3 Web数据挖掘 5
1.3.1什么是数据挖掘 6
1.3.2什么是Web数据挖掘 7
1.4各章概要 8
1.5如何阅读本书 10
文献评注 10
第2章 关联规则和序列模式 12
2.1关联规则的基本概念 12
2.2 Apriori算法 14
2.2.1频繁项目集生成 14
2.2.2关联规则生成 17
2.3关联规则挖掘的数据格式 19
2.4多最小支持度的关联规则挖掘 20
2.4.1扩展模型 21
2.4.2挖掘算法 22
2.4.3规则生成 26
2.5分类关联规则挖掘 27
2.5.1问题描述 27
2.5.2挖掘算法 28
2.5.3多最小支持度分类关联规则挖掘 31
2.6序列模式的基本概念 31
2.7基于GSP挖掘序列模式 32
2.7.1 GSP算法 33
2.7.2多最小支持度挖掘 34
2.8基于PrefixSpan算法的序列模式挖掘 37
2.8.1 PrefixSpan算法 38
2.8.2多最小支持度挖掘 39
2.9从序列模式中产生规则 41
2.9.1序列规则 41
2.9.2标签序列规则 41
2.9.3分类序列规则 42
文献评注 42
第3章 监督学习 45
3.1基本概念 45
3.2决策树推理 48
3.2.l学习算法 49
3.2.2混杂度函数 50
3.2.3处理连续属性 53
3.2.4其他一些问题 54
3.3评估分类器 56
3.3.1评估方法 56
3.3.2查准率、查全率、F-score和平衡点(Breakeven Point) 57
3.4规则推理 59
3.4.1序列化覆盖 59
3.4.2规则学习:Learn-One-Rule函数 61
3.4.3讨论 63
3.5基于关联规则的分类 63
3.5.1使用类关联规则进行分类 64
3.5.2使用类关联规则作为分类属性 66
3.5.3使用古典的关联规则分类 66
3.6朴素贝叶斯分类 67
3.7朴素贝叶斯文本分类 70
3.7.1概率框架 70
3.7.2朴素贝叶斯模型 71
3.7.3讨论 73
3.8支持向量机 73
3.8.1线性支持向量机:可分的情况 74
3.8.2线性支持向量机:数据不可分的情况 78
3.8.3非线性支持向量机:核方法 80
3.9 k-近邻学习 82
3.10分类器的集成 83
3.10.1 Bagging 83
3.10.2 Boosting 84
文献评注 84
第4章 无监督学习 87
4.1基本概念 87
4.2 k-均值聚类 89
4.2.1 k-均值算法 89
4.2.2 k-均值算法的硬盘版本 91
4.2.3优势和劣势 92
4.3聚类的表示 95
4.3.1聚类的一般表示方法 95
4.3.2任意形状的聚类 95
4.4层次聚类 96
4.4.1单链接方法 97
4.4.2全链接方法 98
4.4.3平均链接方法 98
4.4.4优势和劣势 98
4.5距离函数 99
4.5.1数值的属性(Numeric Attributes) 99
4.5.2布尔属性和符号属性(Binary and Nominal Attributes) 99
4.5.3文本文档 101
4.6数据标准化 101
4.7混合属性的处理 103
4.8采用哪种聚类算法 104
4.9聚类的评估 104
4.10发现数据区域和数据空洞 106
文献评注 108
第5章 部分监督学习 110
5.1从已标注数据和无标注数据中学习 110
5.1.1使用朴素贝叶斯分类器的EM算法 111
5.1.2 Co-Training 114
5.1.3自学习 115
5.1.4直推式支持向量机 116
5.1.5基于图的方法 117
5.1.6讨论 119
5.2从正例和无标注数据中学习 119
5.2.1 PU学习的应用 120
5.2.2理论基础 121
5.2.3建立分类器:两步方法 122
5.2.4建立分类器:直接方法 127
5.2.5讨论 128
附录:朴素贝叶斯EM算法的推导 129
文献评注 131
第二部分 Web挖掘 135
第6章 信息检索与Web搜索 135
6.1信息检索中的基本概念 136
6.2信息检索模型 138
6.2.1布尔模型 138
6.2.2向量空间模型 139
6.2.3统计语言模型 141
6.3关联性反馈 142
6.4评估标准 143
6.5文本和网页的预处理 147
6.5.1停用词移除 147
6.5.2词干提取 147
6.5.3其他文本预处理步骤 148
6.5.4网页预处理步骤 148
6.5.5副本探测 149
6.6倒排索引及其压缩 150
6.6.1倒排索引 150
6.6.2使用倒排索引搜索 151
6.6.3索引的建立 152
6.6.4索引的压缩 153
6.7隐式语义索引 157
6.7.1奇异值分解 158
6.7.2查询和检索 159
6.7.3实例 160
6.7.4讨论 163
6.8 Web搜索 163
6.9元搜索引擎和组合多种排序 165
6.9.1使用相似度分数的合并 166
6.9.2使用排名位置的合并 166
6.10网络作弊 168
6.10.1内容作弊 169
6.10.2链接作弊 169
6.10.3隐藏技术 170
6.10.4抵制作弊 171
文献评注 172
第7章 链接分析 174
7.1社会关系网分析 175
7.1.1中心性 175
7.1.2权威 177
7.2同引分析和引文耦合 178
7.2.1同引分析 178
7.2.2引文耦合 179
7.3 PageRank 179
7.3.1 PageRank算法 180
7.3.2 PageRank算法的优点和缺点 185
7.3.3 Timed PageRank 185
7.4 HITS 186
7.4.1 HITS算法 187
7.4.2寻找其他的特征向量 189
7.4.3同引分析和引文耦合的关系 189
7.4.4 HITS算法的优点和缺点 189
7.5社区发现 191
7.5.1问题定义 191
7.5.2二分核心社区 192
7.5.3最大流社区 193
7.5.4基于中介性的电子邮件社区 195
7.5.5命名实体的重叠社区 196
文献评注 197
第8章 Web爬取 199
8.1一个简单爬虫算法 199
8.1.1宽度优先爬虫 201
8.1.2带偏好的爬虫 201
8.2实现议题 202
8.2.1网页获取 202
8.2.2网页解析 202
8.2.3删除无用词并提取词干 204
8.2.4链接提取和规范化 204
8.2.5爬虫陷阱 206
8.2.6网页库 206
8.2.7并发性 207
8.3通用爬虫 208
8.3.1可扩展性 208
8.3.2覆盖度、新鲜度和重要度 209
8.4限定爬虫 210
8.5主题爬虫 212
8.5.1主题本地性和线索 213
8.5.2最优优先变种 217
8.5.3自适应 219
8.6评价标准 223
8.7爬虫道德和冲突 226
8.8最新进展 228
文献评注 230
第9章 结构化数据抽取:包装器生成 231
9.1预备知识 231
9.1.1两种富含数据的网页 232
9.1.2数据模型 233
9.1.3数据实例的HTML标记编码 235
9.2包装器归纳 236
9.2.1从一张网页抽取 237
9.2.2学习抽取规则 238
9.2.3识别提供信息的样例 242
9.2.4包装器维护 242
9.3基于实例的包装器学习 243
9.4自动包装器生成中的一些问题 245
9.4.1两个抽取问题 246
9.4.2作为正则表达式的模式 246
9.5字符串匹配和树匹配 247
9.5.1字符串编辑距离 247
9.5.2树匹配 249
9.6多重对齐 252
9.6.1中星方法 252
9.6.2部分树对齐 253
9.7构建DOM树 257
9.8基于列表页的抽取:平坦数据记录 258
9.8.1有关数据记录的两个观察结果 258
9.8.2挖掘数据区域 259
9.8.3从数据区域中识别数据记录 263
9.8.4数据项对齐与抽取 263
9.8.5利用视觉信息 264
9.8.6一些其他技术 264
9.9基于列表页的抽取:嵌套数据记录 265
9.10基于多张网页的抽取 269
9.10.1采用前几节中的技术 270
9.10.2 RoadRunner算法 270
9.11一些其他问题 271
9.11.1从其他网页中抽取 271
9.11.2析取还是可选 272
9.11.3一个集合类型还是一个元组类型 273
9.11.4标注与整合 273
9.11.5领域相关的抽取 273
9.12讨论 274
文献评注 274
第10章 信息集成 276
10.1什么是样式表匹配 277
10.2样式表匹配的预处理工作 278
10.3样式表层次的匹配 279
10.3.1基于语言学的算法 279
10.3.2基于样式表中限制的算法 280
10.4基于领域和实例层次的匹配 280
10.5不同相似度的联合 282
10.6 l:m匹配 283
10.7其他问题 284
10.7.1重用以前的匹配结果 284
10.7.2大量样式表的匹配 285
10.7.3样式表匹配的结果 285
10.7.4用户交互 285
10.8 Web搜索界面的集成 285
10.8.1基于聚类的算法 287
10.8.2基于互关系的方法 289
10.8.3基于实例的方法 290
10.9构建一个全局的搜索界面 292
10.9.1结构上的正确性和合并算法 293
10.9.2词汇的正确性 294
10.9.3实例的正确性 295
文献评注 295
第11章 观点挖掘 296
11.1意见分类 297
11.1.1基于意见短语的分类 297
11.1.2采用文本分类方法进行意见分类 299
11.1.3基于评分函数进行分类 299
11.2基于特征的观点挖掘和摘要 300
11.2.1问题定义 301
11.2.2对象特征抽取 305
11.2.3格式1中正面和负面评价部分的特征抽取 306
11.2.4符合格式2和3的评审上的特征抽取 308
11.2.5观点倾向分类 309
11.3比较性句子和比较关系挖掘 310
11.3.1问题定义 311
11.3.2等级比较性语句的识别 312
11.3.3比较关系的抽取 314
11.4观点搜索 315
11.5观点欺诈 316
11.5.1观点欺诈的目标和行为 317
11.5.2欺诈和欺诈者的种类 317
11.5.3隐藏技巧 318
11.5.4欺诈检测 318
文献评注 320
第12章 Web使用挖掘 322
12.1数据收集和预处理 323
12.1.1数据的来源和类型 323
12.1.2 Web使用记录数据预处理的关键元素 326
12.2 Web使用记录挖掘的数据建模 331
12.3 Web用法模式的发现和分析 334
12.3.1会话和访问者分析 334
12.3.2聚类分析和访问者分割 334
12.3.3关联及相关度分析 337
12.3.4序列和导航模式分析 340
12.3.5基于Web用户事务的分类和预测 342
12.4讨论和展望 343
文献评注 344
参考文献 345
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《王蒙文集 新版 35 评点《红楼梦》 上》王蒙著 2020
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《燕堂夜话》蒋忠和著 2019
- 《经久》静水边著 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《微表情密码》(波)卡西亚·韦佐夫斯基,(波)帕特里克·韦佐夫斯基著 2019
- 《看书琐记与作文秘诀》鲁迅著 2019
- 《酒国》莫言著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019