第1章 绪论 1
1.1 数据挖掘 1
1.1.1 数据挖掘是什么 2
1.1.2 数据挖掘的功能 3
1.1.3 数据挖掘的过程 4
1.1.4 数据挖掘与机器学习 5
1.2 Weka简介 6
1.3 示例数据集 9
1.3.1 天气问题 9
1.3.2 鸢尾花问题 11
1.3.3 CPU性能问题 11
1.3.4 购物篮问题 12
1.3.5 美国国会投票记录 13
第2章 认识数据 14
2.1 概念、实例集、属性 14
2.2 ARFF格式文件 16
第3章 分类 20
3.1 分类器的输出与评价 20
3.1.1 汇总 20
3.1.2 成本敏感学习方案评价指标及工具 22
3.2 分类决策树 29
3.2.1 ID3算法 29
3.2.2 C4.5算法 31
3.2.3 带嫁接功能的C4.5算法 41
3.2.4 分类树与回归树 42
3.2.5 减少-误差剪枝决策树 49
3.3 分类规则 50
3.3.1 分类规则算法基本思想 50
3.3.2 分类规则算法的基本方法——覆盖算法 51
3.3.3 决策列表 59
3.3.4 基于全局优化的分类规则 63
3.3.5 基于例外的分类规则——涟波下降算法 66
3.3.6 单属性分类规则——1R分类算法 71
3.3.7 简单连接规则 75
3.3.8 简单分类规则 77
3.4 贝叶斯方法 77
3.4.1 贝叶斯方法基础 77
3.4.2 朴素贝叶斯方法 80
3.4.3 多项式朴素贝叶斯方法 90
3.4.4 贝叶斯网络 92
3.4.5 隐匿朴素贝叶斯方法 121
3.5 分类函数 125
3.5.1 logistic回归 125
3.5.2 Winnow分类器 134
3.5.3 多层感知机 139
3.5.4 径向基函数网络 156
3.5.5 序列最小优化算法 160
3.5.6 核logistic回归 179
3.5.7 投票感知机 182
3.5.8 随机梯度下降算法 184
3.6 惰性方法 187
3.6.1 惰性方法的基本思想 187
3.6.2 k-最近邻分类器 188
第4章 数值预测 219
4.1 预测器的输出与评价 219
4.1.1 反映预测值与实际值之间绝对偏差的度量指标 219
4.1.2 反映预测值与实际值之间相对偏差的度量指标 219
4.2 预测规则 220
4.2.1 简单连接规则 220
4.2.2 简单分类规则——0-规则分类器 221
4.3 预测函数 222
4.3.1 线性回归 222
4.3.2 简单线性回归 229
4.3.3 最小中值平方线性回归 229
4.3.4 基于投影的线性回归 232
4.3.5 保序回归 234
4.3.6 序列最小优化回归 241
第5章 聚类 247
5.1 K-均值聚类 248
5.1.1 K-均值聚类的基本思想 248
5.1.2 初始化聚类中心 248
5.1.3 顶盖方法 249
5.1.4 Weka实现 255
5.2 X-均值聚类 257
5.2.1 X-均值聚类的基本思想 257
5.2.2 聚类簇总数k的估计 257
5.2.3 基于kD树的算法加速 260
5.2.4 Weka实现 264
5.3 层次聚类 265
5.3.1 层次聚类法的基本思想 265
5.3.2 凝聚聚类算法 266
5.3.3 Weka实现 270
5.4 增量聚类 271
5.4.1 增量聚类法的基本思想 271
5.4.2 分类效用 273
5.4.3 敏锐度 274
5.4.4 截断参数 275
5.4.5 Weka实现 276
5.5 基于概率的聚类 277
5.5.1 基于概率的聚类方法基础 277
5.5.2 EM算法 279
5.5.3 扩展混合模型 281
5.5.4 交叉验证与聚类簇总数 283
5.5.5 Weka实现 283
5.6 基于密度的聚类 285
5.6.1 基本概念 285
5.6.2 DBSCAN算法 286
5.6.3 OPTICS算法 288
5.6.4 Weka实现 291
5.7 CLOPE聚类 296
5.7.1 稀疏数据 296
5.7.2 CLOPE的基本思想 297
5.7.3 算法描述 298
5.7.4 算法实现细节 301
5.7.5 Weka实现 302
5.8 聚类方法辅助工具 303
5.8.1 FilteredClusterer 303
5.8.2 MakeDensityBasedClusterer 304
第6章 基于频繁模式的关联规则 305
6.1 模式挖掘的基本概念 305
6.1.1 频繁模式 305
6.1.2 频繁项集和关联规则 306
6.1.3 闭频繁项集和极大频繁项集 308
6.1.4 模式评估度量 309
6.1.5 模式挖掘的分类 320
6.2 Apriori算法 322
6.2.1 算法思想及算法步骤 322
6.2.2 算法效率提升策略 327
6.2.3 典型模式提取 329
6.2.4 基于频繁模式的分类器 338
6.2.5 Weka实现 342
6.3 FP-Growth算法 345
6.3.1 算法思想 345
6.3.2 算法步骤 349
6.3.3 基于约束的剪枝 350
6.3.4 Weka实现 355
6.4 模式挖掘方法的辅助工具 356
参考文献 358
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《深筋膜徒手松解疗法》盛德峰著 2019
- 《高校教师胜任力与工作绩效关系研究》曹志峰著 2019
- 《新媒体运营实战指南 社群运营 短视频运营 直播运营 微信运营》陈政峰著 2019
- 《如何成为学习高手》林泰峰著 2019
- 《中国学术思想研究辑刊 二十编 第9册 欧阳修《诗本义》研究新探 重估汉宋《诗经》学的转变与意义 上》陈战峰著 2015
- 《Python数据可视化 基于Bokeh的可视化绘图》屈希峰著 2020
- 《信息时代的哲学新问题=NEW PHILOSOPHICAL ISSUES IN THE INFORMATION AGE》肖峰著 2020
- 《中国学术思想研究辑刊 二十编 第7册 宋代《诗经》学与理学 上》陈战峰著 2015
- 《不器:我只是个生活家》何越峰著 2019
- 《数据挖掘基础算法理论与Weka应用技术》牟峰著 2019