第1章 数据挖掘概述 1
1.1 什么是数据挖掘 2
1.2 统计思想在数据挖掘中的重要性 2
1.3 数据挖掘的应用案例 7
1.4 CRISP-DM数据挖掘方法论 14
1.5 SEMMA数据挖掘方法论 15
第2章 数据理解和数据准备 17
2.1 数据理解 19
2.2 数据准备 22
2.3 数据理解和数据准备示例:FNBA信用卡数据 35
第3章 缺失数据 51
3.1 缺失数据模式和缺失数据机制 52
3.2 缺失数据机制对数据分析的影响 53
3.3 缺失值插补 62
3.4 缺失数据插补及分析示例:纽约空气质量 64
第4章 关联规则挖掘 73
4.1 关联规则的实际意义 74
4.2 关联规则的基本概念及Apriori算法 74
4.3 序列关联规则 80
4.4 关联规则挖掘示例 81
4.5 关联规则挖掘的其他讨论 85
第5章 多元统计中的降维方法 88
5.1 主成分分析 89
5.2 探索性因子分析 97
5.3 多维标度分析 104
第6章 聚类分析 111
6.1 距离与相似度的度量 113
6.2 κ均值聚类算法 117
6.3 层次聚类法 122
第7章 预测性建模的一些基本方法 130
7.1 判别分析 131
7.2 朴素贝叶斯分类算法 134
7.3 κ近邻法 137
7.4 线性回归 141
7.5 广义线性模型 149
第8章 回归模型中的规则化和变量选择 168
8.1 线性回归中的规则化和变量选择 169
8.2 广义线性模型中的规则化和变量选择 181
第9章 神经网络的基本方法 184
9.1 神经网络架构及基本组成 185
9.2 误差函数 190
9.3 神经网络训练算法 193
9.4 提高神经网络模型的可推广性 198
9.5 数据预处理 200
9.6 神经网络建模示例 201
9.7 自组织图 222
第10章 卷积神经网络 230
10.1 深度神经网络 231
10.2 卷积神经网络架构 232
10.3 卷积神经网络示例:Fashion-MNIST数据 239
第11章 决策树 245
11.1 决策树简介 246
11.2 决策树的生长与修剪 248
11.3 对缺失数据的处理 255
11.4 变量选择 256
11.5 决策树的优缺点 257
第12章 支持向量机 274
12.1 支持向量机用于二分类问题 275
12.2 支持向量机用于多分类问题 284
12.3 支持向量机用于回归问题 285
第13章 模型评估 290
13.1 因变量为二分变量的情形 291
13.2 因变量为多分变量的情形 301
13.3 因变量为连续变量的情形 303
13.4 模型评估示例:德国信用数据的模型评估 304
第14章 模型组合与两阶段模型 312
14.1 模型组合 313
14.2 随机森林 321
14.3 两阶段模型 324
第15章 协同过滤 326
15.1 基于用户(User-based)的协同过滤 327
15.2 基于物品(Item-based)的协同过滤 328
15.3 基于SVD的协同过滤 328
15.4 基于Funk SVD的协同过滤 329
15.5 协同过滤示例:动漫片推荐 331
参考文献 337
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《虚拟流域环境理论技术研究与应用》冶运涛蒋云钟梁犁丽曹引等编著 2019
- 《当代翻译美学的理论诠释与应用解读》宁建庚著 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020