第1篇 大数据分析与数据挖掘导论 3
第1章 大数据分析与数据挖掘概论 3
1.1 前言 3
1.2 大数据分析的应用 6
1.3 数据挖掘与数字决策 8
1.4 数据挖掘和大数据分析架构与步骤 9
1.4.1 问题定义与架构 10
1.4.2 数据准备 11
1.4.3 建立挖掘模式 11
1.4.4 结果解释与评估 12
1.5 数据挖掘的问题类型 13
1.5.1 分类 13
1.5.2 预测 13
1.5.3 聚类 14
1.5.4 关联规则 14
1.6 数据挖掘模式 14
1.7 结论 15
1.8 本书架构 17
问题与讨论 17
第2章 数据与数据准备 19
2.1 数据取得 20
2.2 大数据分析的基础:Hadoop 22
2.2.1 Hadoop架构 22
2.2.2 Hadoop分布式文件系统 23
2.2.3 MapReduce 24
2.3 数据类型 25
2.4 数据尺度 26
2.5 数据检查 28
2.6 数据探索与可视化 29
2.7 数据整合与清理 32
2.8 数据转换 36
2.8.1 数据数值转换 36
2.8.2 数据属性转换 37
2.9 数据归约 38
2.9.1 数据维度归约 38
2.9.2 数据数值归约 44
2.10 数据分割 46
2.11 应用实例——半导体厂制造技术员人力资源管理质量提升 47
2.11.1 案例背景 47
2.11.2 数据准备 47
2.12 结论 50
问题与讨论 51
第2篇 数据挖掘方法与实证 55
第3章 关联规则 55
3.1 关联规则的定义与说明 55
3.2 关联规则的衡量指针 57
3.3 关联规则的类型 59
3.4 关联规则算法 60
3.4.1 Apriori算法 62
3.4.2 Partition算法 65
3.4.3 DHP算法 66
3.4.4 MSApriori算法 68
3.4.5 FP-Growth算法 70
3.5 多维度关联规则 75
3.6 多阶层关联规则 76
3.7 关联规则的应用 79
3.8 R语言与关联规则分析 79
3.9 应用实例——电力公司配电事故定位的研究 83
3.9.1 案例背景 83
3.9.2 数据准备 84
3.9.3 关联规则推导 85
3.10 结论 88
问题与讨论 88
第4章 决策树分析 93
4.1 决策树的建构 93
4.1.1 数据准备 94
4.1.2 决策树的分支准则 96
4.1.3 决策树修剪 104
4.1.4 规则提取 106
4.2 决策树的算法 107
4.2.1 CART 108
4.2.2 C4.5 /C5.0 108
4.2.3 CHAID 109
4.3 决策树分类模型评估 110
4.4 R语言与决策树分析 112
4.4.1 CART决策树分析 112
4.4.2 C5.0决策树分析 114
4.4.3 CHAID决策树分析 115
4.5 应用实例——建构cDNA生物芯片的数据挖掘模式 117
4.5.1 案例背景 117
4.5.2 数据准备 117
4.5.3 生物芯片数据的决策树构建 118
4.5.4 规则解释与评估 119
4.6 结论 120
问题与讨论 120
第5章 人工神经网络 127
5.1 人工神经网络的基本结构 130
5.2 网络学习法 132
5.3 反向传播人工神经网络 134
5.3.1 网络架构 134
5.3.2 学习算法 136
5.3.3 反向传播人工神经网络步骤 137
5.3.4 反向传播人工神经网络范例 138
5.4 自组织映射网络 139
5.4.1 网络架构 140
5.4.2 学习算法 142
5.4.3 SOM人工神经网络步骤 143
5.4.4 自组织映射图网络范例 143
5.5 自适应共振理论人工神经网络 146
5.5.1 网络架构 147
5.5.2 ART1网络算法 148
5.5.3 适应性共振网络范例 150
5.6 R语言与人工神经网络 152
5.6.1 反向传播人工神经网络 152
5.6.2 自组织映射网络 154
5.6.3 自适应共振理论人工神经网络 155
5.7 应用实例——半导体生产周期时间预测与管控 158
5.7.1 案例简介 158
5.7.2 数据分群 159
5.7.3 数据配适与预测 160
5.7.4 信息整合与敏感度分析 161
5.7.5 案例小结 162
5.8 结论 163
问题与讨论 163
第6章 聚类分析 165
6.1 聚类分析法简介 165
6.1.1 聚类分析的阶段 166
6.1.2 相似度的衡量 166
6.1.3 聚类分析方法 169
6.2 层次聚类分析法 170
6.3 划分聚类分析法 174
6.3.1 K平均法 174
6.3.2 K中心点法 176
6.4 以密度为基础的分群算法 179
6.5 以模式为基础的分群算法 181
6.5.1 期望最大化算法 181
6.5.2 自组织映射图网络 182
6.6 R语言与聚类分析 182
6.7 应用实例——黄光机台聚类分析 184
6.7.1 案例简介 184
6.7.2 验证两阶段分群算法 185
6.7.3 案例小结 187
6.8 结论 187
问题与讨论 188
第7章 朴素贝叶斯分类法与贝叶斯网络 190
7.1 贝叶斯定理 190
7.2 朴素贝叶斯分类法 192
7.3 贝叶斯网络 196
7.3.1 贝叶斯网络的理论基础 196
7.3.2 贝叶斯网络的不一致性修正 201
7.4 R语言与贝叶斯分类 203
7.5 应用实例——电力公司馈线事故定位系统 207
7.5.1 案例简介与问题架构 207
7.5.2 数据整理与贝叶斯网络图构建 208
7.5.3 给定贝叶斯推理网络的参数 209
7.5.4 验证贝叶斯推理网络 210
7.5.5 案例小结 210
7.6 结论 211
问题与讨论 211
第8章 粗糙集理论 215
8.1 粗糙集理论 215
8.2 粗糙集理论基本概念 215
8.2.1 信息系统与决策表 216
8.2.2 等价关系 216
8.2.3 近似空间 217
8.2.4 近似集合的准确率 218
8.2.5 分类的准确率与属性相依程度 219
8.2.6 简化 219
8.3 粗糙集理论产生分类规则 222
8.4 粗糙集理论与其他分类方法的比较 223
8.5 R语言与粗糙集理论 224
8.5.1 决策表与等价关系 225
8.5.2 近似空间 225
8.5.3 简化与规则推演 226
8.6 应用实例——TFT-LCD数组事故诊断 227
8.6.1 案例简介 227
8.6.2 分析过程 227
8.6.3 案例小结 230
8.7 结论 231
问题与讨论 231
第9章 预测与时间数据分析 234
9.1 回归分析 234
9.1.1 回归分析基本介绍 234
9.1.2 参数估计 237
9.1.3 回归模型解释与评估 237
9.1.4 多重回归分析 239
9.1.5 共线性 239
9.2 逻辑回归 240
9.2.1 概率与胜算 240
9.2.2 逻辑回归模式 240
9.3 时间序列分析 242
9.4 时间数据的分析步骤 243
9.5 模式选择与建立 244
9.5.1 时间序列平滑法 246
9.5.2 平稳型时间序列 247
9.5.3 无定向型时间序列 251
9.5.4 趋势型、季节型与介入事件型时间序列 252
9.6 阶次选取与参数估计 254
9.7 模式评估 255
9.7.1 拟合优度检定 255
9.7.2 预测误差衡量 256
9.8 R语言与时间数据分析 257
9.9 应用实例——半导体光罩需求预测 261
9.9.1 案例简介与问题架构 261
9.9.2 数据准备与数据处理 261
9.9.3 需求波动侦测分析过程 262
9.9.4 案例小结 263
9.10 结论 264
问题与讨论 265
第10章 集成学习与支持向量机 268
10.1 集成学习 268
10.1.1 Bagging 268
10.1.2 Boosting 269
10.2 支持向量机 272
10.2.1 可区分情况(separable case) 272
10.2.2 不可分状况(non-separable case) 274
10.2.3 非线性分类 275
10.3 R语言与随机森林集成学习模型 276
10.3.1 利用随机森林进行分类 276
10.3.2 利用随机森林评估变量重要性 277
10.4 结论 278
问题与讨论 278
第3篇 数据挖掘进阶运用 281
第11章 商业智能 281
11.1 商业智能概述 281
11.2 应用实例——交通信息预测 283
11.3 个案研究——人力资源数据挖掘 283
11.3.1 案例说明 283
11.3.2 分析过程 284
11.3.3 案例小结 291
11.4 应用实例——机票价格预测 292
11.5 个案研究——产品需求预测 292
11.5.1 半导体产品需求预测架构 292
11.5.2 分析过程 297
11.5.3 案例小结 303
11.6 结论 303
问题与讨论 304
第12章 制造智能 305
12.1 序言 305
12.2 WAT参数特征提取与关联分析 307
12.2.1 案例说明 307
12.2.2 分析过程 308
12.2.3 案例小结 312
12.3 半导体CP测试数据挖掘与晶圆图样型分类 312
12.3.1 案例背景 312
12.3.2 分析过程 313
12.3.3 案例小结 318
12.4 低良率事故诊断与制程关联分析 318
12.4.1 案例说明 318
12.4.2 分析过程 319
12.4.3 案例小结 323
12.5 半导体制造管理的数据挖掘 324
12.5.1 案例背景 324
12.5.2 分析过程 324
12.5.3 案例小结 329
12.6 结论 330
问题与讨论 331
第13章 数字决策及商业分析与优化 332
13.1 决策信息系统 332
13.1.1 决策信息系统 332
13.1.2 决策信息系统的架构 333
13.1.3 应用实例——电性测试机台维修的决策支持系统 334
13.2 商业分析与优化 339
13.2.1 商业分析与优化 339
13.2.2 商业分析与优化的基本要素 340
13.2.3 商业分析与优化的应用 341
13.3 数字决策 342
13.4 结论 343
问题与讨论 344
参考文献 345