第一篇 基础篇 3
第1章 认识大数据挖掘 3
1.1 大数据与数据挖掘 3
1.1.1 何为大数据 3
1.1.2 大数据的价值 5
1.1.3 大数据与数据挖掘的关系 5
1.2 数据挖掘的概念和原理 6
1.2.1 什么是数据挖掘 6
1.2.2 数据挖掘的原理 8
1.3 数据挖掘的内容 8
1.3.1 关联 8
1.3.2 回归 10
1.3.3 分类 10
1.3.4 聚类 11
1.3.5 预测 12
1.3.6 诊断 13
1.4 数据挖掘的应用领域 13
1.4.1 零售业 13
1.4.2 银行业 14
1.4.3 证券业 15
1.4.4 能源业 16
1.4.5 医疗行业 17
1.4.6 通信行业 18
1.4.7 汽车行业 19
1.4.8 公共事业 19
1.5 大数据挖掘的要点 20
1.6 小结 22
参考文献 22
第2章 数据挖掘的过程及工具 23
2.1 数据挖掘过程概述 23
2.2 挖掘目标的定义 24
2.3 数据的准备 24
2.4 数据的探索 26
2.5 模型的建立 27
2.6 模型的评估 30
2.7 模型的部署 32
2.8 工具的比较与选择 32
2.9 小结 33
参考文献 33
第3章 MATLAB数据挖掘快速入门 35
3.1 MATLAB快速入门 35
3.1.1 MATLAB概要 35
3.1.2 MATLAB的功能 36
3.1.3 快速入门实例 37
3.1.4 入门后的提高 43
3.2 MATLAB常用技巧 44
3.3 MATLAB开发模式 45
3.4 MATLAB数据挖掘实例 46
3.5 MATLAB集成数据挖掘工具 48
3.5.1 分类学习机简介 48
3.5.2 交互探索算法的方式 48
3.5.3 MATLAB分类学习机应用实例 49
3.6 小结 54
第二篇 技术篇 57
第4章 数据的准备 57
4.1 数据的收集 57
4.1.1 认识数据 57
4.1.2 数据挖掘的数据源 58
4.1.3 数据抽样 59
4.1.4 金融 行业的数据源 60
4.1.5 从雅虎获取交易数据 62
4.1.6 从大智慧获取财务数据 64
4.1.7 从Wind获取高质量数据 66
4.2 数据质量分析 68
4.2.1 数据质量分析的必要性 68
4.2.2 数据质量分析的目的 68
4.2.3 数据质量分析的内容 68
4.2.4 数据质量分析方法 69
4.2.5 数据质量分析的结果及应用 73
4.3 数据预处理 74
4.3.1 为什么需要数据预处理 74
4.3.2 数据预处理的方法 74
4.3.3 数据清洗 76
4.3.4 数据集成 79
4.3.5 数据归约 79
4.3.6 数据变换 80
4.4 小结 81
参考文献 82
第5章 数据的探索 83
5.1 衍生变量 84
5.1.1 衍生变量的定义 84
5.1.2 变量衍生的原则和方法 84
5.1.3 常用的股票衍生变量 85
5.1.4 评价型衍生变量 89
5.1.5 衍生变量的数据收集与集成 91
5.2 数据的统计 92
5.2.1 基本描述性统计 92
5.2.2 分布描述性统计 93
5.3 数据可视化 94
5.3.1 基本可视化方法 94
5.3.2 数据分布形状可视化 95
5.3.3 数据关联情况可视化 97
5.3.4 数据分组可视化 97
5.4 样本选择 98
5.4.1 样本选择的方法 98
5.4.2 样本选择应用实例 99
5.5 数据降维 101
5.5.1 主成分分析基本原理 101
5.5.2 PCA应用案例:企业综合实力排序 103
5.5.3 相关系数降维 106
5.6 小结 107
参考文献 108
第6章 关联规则方法 109
6.1 关联规则概要 109
6.1.1 关联规则的背景 109
6.1.2 关联规则的基本概念 110
6.1.3 关联规则的分类 111
6.1.4 关联规则挖掘常用算法 112
6.2 Apriori算法 112
6.2.1 Apriori算法基本思想 112
6.2.2 Apriori算法步骤 113
6.2.3 Apriori算法实例 113
6.2.4 Apriori算法程序实现 115
6.2.5 Apriori算法优缺点 118
6.3 FP-Growth算法 118
6.3.1 FP-Growth算法步骤 118
6.3.2 FP-Growth算法实例 119
6.3.3 FP-Growth算法优缺点 121
6.4 应用实例:行业关联选股法 122
6.5 小结 123
参考文献 124
第7章 数据回归方法 125
7.1 一元回归 126
7.1.1 一元线性回归 126
7.1.2 一元非线性回归 130
7.1.3 一元多项式回归 135
7.2 多元回归 136
7.2.1 多元线性回归 136
7.2.2 多元多项式回归 139
7.3 逐步回归 141
7.3.1 逐步回归基本思想 141
7.3.2 逐步回归步骤 142
7.3.3 逐步回归的MATLAB方法 143
7.4 Logistic回归 144
7.4.1 Logistic 模型 144
7.4.2 Logistic回归实例 145
7.5 应用实例:多因子选股模型的实现 148
7.5.1 多因子模型基本思想 148
7.5.2 多因子模型的实现 148
7.6 小结 151
参考文献 151
第8章 分类方法 153
8.1 分类方法概要 153
8.1.1 分类的概念 153
8.1.2 分类的原理 154
8.1.3 常用的分类方法 155
8.2 K-近邻 155
8.2.1 K-近邻原理 155
8.2.2 K-近邻实例 156
8.2.3 K-近邻特点 159
8.3 贝叶斯分类 160
8.3.1 贝叶斯分类原理 160
8.3.2 朴素贝叶斯分类原理 160
8.3.3 朴素贝叶斯分类实例 162
8.3.4 朴素贝叶斯特点 163
8.4 神经网络 163
8.4.1 神经网络原理 163
8.4.2 神经网络实例 165
8.4.3 神经网络特点 165
8.5 逻辑斯蒂 166
8.5.1 逻辑斯蒂原理 166
8.5.2 逻辑斯蒂实例 166
8.5.3 逻辑斯蒂特点 166
8.6 判别分析 167
8.6.1 判别分析原理 167
8.6.2 判别分析实例 168
8.6.3 判别分析特点 168
8.7 支持向量机 168
8.7.1 支持向量机基本思想 169
8.7.2 支持向量机理论基础 169
8.7.3 支持向量机实例 172
8.7.4 支持向量机特点 172
8.8 决策树 173
8.8.1 决策树的基本概念 173
8.8.2 决策树的构建步骤 173
8.8.3 决策树实例 177
8.8.4 决策树特点 177
8.9 分类的评判 177
8.9.1 正确率 177
8.9.2 ROC曲线 180
8.10 应用实例:分类选股法 181
8.10.1 案例背景 181
8.10.2 实现方…法 182
8.11 延伸阅读:其他分类方法 185
8.12 小结 185
参考文献 186
第9章 聚类方法 187
9.1 聚类方法概要 187
9.1.1 聚类的概念 187
9.1.2 类的度量方法 189
9.1.3 聚类方法的应用场景 190
9.1.4 聚类方法分类 191
9.2 K-means方法 192
9.2.1 K-means原理和步骤 192
9.2.2 K-means实例1:自主编程 193
9.2.3 K-means实例2:集成函数 194
9.2.4 K-means特点 198
9.3 层次聚类 198
9.3.1 层次聚类原理和步骤 198
9.3.2 层次聚类实例 199
9.3.3 层次聚类特点 201
9.4 神经网络聚类 202
9.4.1 神经网络聚类原理和步骤 202
9.4.2 神经网络聚类实例 202
9.4.3 神经网络聚类特点 203
9.5 模糊C-均值方法 203
9.5.1 FCM原理和步骤 203
9.5.2 FCM应用实例 205
9.5.3 FCM算法特点 205
9.6 高斯混合聚类方法 206
9.6.1 高斯混合聚类原理和步骤 206
9.6.2 高斯混合聚类实例 208
9.6.3 高斯混合聚类特点 209
9.7 类别数的确定方法 209
9.7.1 原理 209
9.7.2 实例 210
9.8 应用实例:股票聚类分池 212
9.8.1 聚类目标和数据描述 212
9.8.2 实现过程 212
9.8.3 结果及分析 214
9.9 延伸阅读 215
9.9.1 目前聚类分析研究的主要内容 215
9.9.2 SOM智能聚类算法 216
9.10 小结 217
参考文献 218
第10章 预测方法 219
10.1 预测方法概要 219
10.1.1 预测的概念 219
10.1.2 预测的基本原理 220
10.1.3 预测的准确度评价及影响因素 221
10.1.4 常用的预测方法 222
10.2 灰色预测 223
10.2.1 灰色预测原理 223
10.2.2 灰色预测的实例 225
10.3 马尔科夫预测 226
10.3.1 马尔科夫预测原理 226
10.3.2 马尔科夫过程的特性 227
10.3.3 马尔科夫预测实例 228
10.4 应用实例:大盘走势预测 232
10.4.1 数据的选取及模型的建立 232
10.4.2 预测过程 233
10.4.3 预测结果与分析 234
10.5 小结 234
参考文献 235
第11章 诊断方法 237
11.1 离群点诊断概要 237
11.1.1 离群点诊断的定义 237
11.1.2 离群点诊断的作用 238
11.1.3 离群点诊断方法分类 239
11.2 基于统计的离群点诊断 240
11.2.1 理论基础 240
11.2.2 应用实例 241
11.2.3 优点与缺点 242
11.3 基于距离的离群点诊断 243
11.3.1 理论基础 243
11.3.2 应用实例 244
11.3.3 优点与缺点 244
11.4 基于密度的离群点挖掘 245
11.4.1 理论基础 245
11.4.2 应用实例 246
11.4.3 优点与缺点 247
11.5 基于聚类的离群点挖掘 247
11.5.1 理论基础 247
11.5.2 应用实例 248
11.5.3 优点与缺点 249
11.6 应用实例:离群点诊断股票买卖择时 249
11.7 延伸阅读:新兴的离群点挖掘方法 251
11.7.1 基于关联的离群点挖掘 251
11.7.2 基于粗糙集的离群点挖掘 251
11.7.3 基于人工神经网络的离群点挖掘 251
11.8 小结 252
参考文献 252
第12章 时间序列方法 253
12.1 时间序列基本概念 253
12.1.1 时间序列的定义 253
12.1.2 时间序列的组成因素 254
12.1.3 时间序列的分类 255
12.1.4 时间序列分析方法 255
12.2 平稳时间序列分析方法 256
12.2.1 移动平均法 256
12.2.2 指数平滑法 257
12.3 季节指数预测法 258
12.3.1 季节性水平模型 258
12.3.2 季节性趋势模型 259
12.4 时间序列模型 259
12.4.1 ARMA模型 259
12.4.2 ARIMA模型 259
12.4.3 ARCH模型 260
12.4.4 GARCH模型 261
12.5 应用实例:基于时间序列的股票预测 261
12.6 小结 264
参考文献 264
第13章 智能优化方法 265
13.1 智能优化方法概要 266
13.1.1 智能优化方法的概念 266
13.1.2 常用的智能优化方法 266
13.2 遗传算法 268
13.2.1 遗传算法的原理 268
13.2.2 遗传算法的步骤 268
13.2.3 遗传算法实例 274
13.2.4 遗传算法的特点 275
13.3 模拟退火算法 276
13.3.1 模拟退火算法的原理 276
13.3.2 模拟退火算法的步骤 278
13.3.3 模拟退火算法实例 280
13.3.4 模拟退火算法的特点 285
13.4 延伸阅读:其他智能方法 286
13.4.1 粒子群算法 286
13.4.2 蚁群算法 287
13.5 小结 288
参考文献 288
第三篇 项目篇 291
第14章 数据挖掘在银行信用评分中的应用 291
14.1 什么是信用评分 291
14.1.1 信用评分的概念 291
14.1.2 信用评分的意义 293
14.1.3 个人信用评分的影响因素 293
14.1.4 信用评分的方法 294
14.2 DM法信用评分实施过程 295
14.2.1 数据的准备 295
14.2.2 数据预处理 295
14.2.3 Logis和tic模型 296
14.2.4 神经网络模型 297
14.3 AHP信用评分方法 298
14.3.1 AHP法简介 298
14.3.2 AHP法信用评分实例 298
14.4 延伸阅读:企业信用评级 299
14.5 小结 300
第15章 数据挖掘在量化选股中的应用 301
15.1 什么是量化选股 301
15.1.1 量化选股定义 301
15.1.2 量化选股实现过程 302
15.1.3 量化选股的分类 304
15.2 数据的处理及探索 304
15.2.1 获取股票日交易数据 304
15.2.2 计算指标 307
15.2.3 数据标准化 312
15.2.4 变量筛选 313
15.3 模型的建立及评估 315
15.3.1 股票预测的基本思想 315
15.3.2 模型的训练及评价 315
15.4 组合投资的优化 317
15.4.1 组合投资的理论基础 317
15.4.2 组合投资的实现 320
15.5 量化选股的实施 323
15.6 小结 323
参考文献 324
第16章 数据挖掘在工业故障诊断中的应用 325
16.1 什么是故障诊断 325
16.1.1 故障诊断的概念 325
16.1.2 故障诊断的方法 326
16.1.3 数据挖掘技术的故障诊断原理 326
16.2 DM设备故障诊断实例 327
16.2.1 加载数据 327
16.2.2 探索数据 327
16.2.3 设置训练样本的测试样本 332
16.2.4 决策树方法训练模型 332
16.2.5 集成决策树方法训练模型 332
16.3 小结 333
第17章 数据挖掘技术在矿业工程中的应用 335
17.1 什么是矿业工程 335
17.1.1 矿业工程的内容 335
17.1.2 矿业工程的数据及特征 336
17.1.3 数据挖掘技术在矿业工程中的作用 337
17.2 矿业工程数据挖掘实例:提纯预测 337
17.2.1 数据的集成 337
17.2.2 采用插值方式处理缺失值 338
17.2.3 设置建模数据及验证方式 338
17.2.4 多元线性回归模型 338
17.3 小结 343
参考文献 343
第18章 数据挖掘技术在生命科学中的应用 345
18.1 什么是生命科学 345
18.1.1 生命科学的研究内容 345
18.1.2 生命科学中大数据的特征 346
18.1.3 数据挖掘技术在生命科学中的作用 347
18.2 生命科学数据挖掘实例:基因表达模式挖掘 349
18.2.1 加载数据 349
18.2.2 数据初探 349
18.2.3 数据清洗 350
18.2.4 层次聚类 350
18.2.5 K-means聚类 352
18.3 小结 353
参考文献 353
第19章 数据挖掘在社会科学研究中的应用 355
19.1 什么是社会利学研究 355
19.1.1 社会学研究的内容 355
19.1.2 社会学研究的方法 356
19.1.3 数据挖掘在社会科学研究中的应用情况 356
19.2 社会科学挖掘实例:人类行为研究 358
19.2.1 加载数据 358
19.2.2 数据可视化 358
19.2.3 神经网络 359
19.2.4 混淆矩阵评价分类器 359
19.2.5 ROC法评价分类器 361
19.2.6 变量优选 361
19.2.7 用优选的变量训练网络 362
19.3 小结 362
第四篇 理念篇 365
第20章 数据挖掘的艺术 365
20.1 确定数据挖掘目标的艺术 365
20.1.1 数据挖掘中的商业意识 365
20.1.2 商业意识到数据挖掘目标 366
20.1.3 商业意识的培养 366
20.2 应用技术的艺术 367
20.2.1 技术服务于业务的艺术 367
20.2.2 算法选择的艺术 368
20.2.3 与机器配合的艺术 369
20.3 数据挖掘中平衡的艺术 370
20.3.1 客观与主观的平衡 370
20.3.2 数据量的平衡 370
20.4 理性对待大数据时代 371
20.4.1 发展大数据应避免的误区 371
20.4.2 正确认识大数据的价值 372
20.4.3 直面大数据应用面临的挑战 374
20.5 小结 375
参考文献 375
第21章 数据挖掘的项目管理和团队管理 377
21.1 数据挖掘项目实施之道 377
21.1.1 确定可行的目标 377
21.1.2 遵守数据挖掘流程 377
21.1.3 项目的质量控制 378
21.1.4 项目效率 378
21.1.5 成本控制 379
21.1.6 数据挖掘过程改进 379
21.2 数据挖掘团队的组建 380
21.2.1 数据挖掘项目团队的构成 380
21.2.2 团队负责人 380
21.3 数据挖掘团队的管理 381
21.3.1 团队管理的目标与策略 381
21.3.2 规范化的管理 381
21.4 优秀数据挖掘人才的修炼 382
21.4.1 专业知识与技术 382
21.4.2 快速获取知识的技能 383
21.4.3 提高表达能力 383
21.4.4 提高管理能力 383
21.4.5 培养对数据挖掘的热情 384
21.5 小结 384