基础篇 2
第1章 数据挖掘基础 2
1.1 某知名连锁餐饮企业的困惑 2
1.2 从餐饮服务到数据挖掘 3
1.3 数据挖掘的基本任务 4
1.4 数据挖掘的建模过程 4
1.4.1 定义挖掘目标 5
1.4.2 数据取样 5
1.4.3 数据探索 7
1.4.4 数据预处理 7
1.4.5 挖掘建模 7
1.4.6 模型评价 7
1.5 常用的数据挖掘建模工具 8
1.6 小结 9
第2章 MATLAB数据分析工具箱简介 10
2.1 MATLAB的安装 10
2.2 MATLAB使用入门 11
2.2.1 MATLAB R2014a操作界面 11
2.2.2 MATLAB常用操作 13
2.3 MATLAB数据分析工具箱 17
2.4 配套附件使用设置 18
2.5 小结 19
第3章 数据探索 20
3.1 数据质量分析 20
3.1.1 缺失值分析 21
3.1.2 异常值分析 21
3.1.3 一致性分析 24
3.2 数据特征分析 24
3.2.1 分布分析 24
3.2.2 对比分析 27
3.2.3 统计量分析 29
3.2.4 周期性分析 31
3.2.5 贡献度分析 31
3.2.6 相关性分析 34
3.3 MATLAB主要数据的探索函数 38
3.3.1 统计特征函数 38
3.3.2 统计作图函数 40
3.4 小结 45
第4章 数据预处理 46
4.1 数据清洗 47
4.1.1 缺失值处理 47
4.1.2 异常值处理 50
4.2 数据集成 50
4.2.1 实体识别 51
4.2.2 冗余属性识别 51
4.3 数据变换 51
4.3.1 简单的函数变换 51
4.3.2 规范化 52
4.3.3 连续属性离散化 54
4.3.4 属性构造 57
4.3.5 小波变换 57
4.4 数据规约 60
4.4.1 属性规约 60
4.4.2 数值规约 64
4.5 MATLAB主要的数据预处理函数 67
4.6 小结 71
第5章 挖掘建模 72
5.1 分类与预测 72
5.1.1 实现过程 72
5.1.2 常用的分类与预测算法 74
5.1.3 回归分析 74
5.1.4 决策树 80
5.1.5 人工神经网络 85
5.1.6 分类与预测算法评价 90
5.1.7 MATLAB主要分类与预测算法函数 94
5.2 聚类分析 97
5.2.1 常用的聚类分析算法 97
5.2.2 K-Means聚类算法 98
5.2.3 聚类分析算法评价 103
5.2.4 MATLAB主要聚类分析算法函数 103
5.3 关联规则 107
5.3.1 常用的关联规则算法 107
5.3.2 Apriori算法 108
5.4 时序模式 113
5.4.1 时间序列算法 113
5.4.2 时间序列的预处理 114
5.4.3 平稳时间序列分析 115
5.4.4 非平稳时间序列分析 118
5.4.5 MATLAB主要时序模式算法函数 129
5.5 离群点检测 131
5.5.1 离群点的检测方法 132
5.5.2 基于统计模型的离群点的检测方法 133
5.5.3 基于聚类的离群点的检测方法 135
5.6 小结 138
实战篇 140
第6章 电力企业的窃漏电用户自动识别 140
6.1 背景与挖掘目标 140
6.2 分析方法与过程 143
6.2.1 数据抽取 144
6.2.2 数据探索分析 144
6.2.3 数据预处理 147
6.2.4 构建专家样本 151
6.2.5 构建模型 152
6.3 上机实验 158
6.4 拓展思考 159
6.5 小结 159
第7章 航空公司的客户价值分析 160
7.1 背景与挖掘目标 160
7.2 分析方法与过程 161
7.2.1 数据抽取 164
7.2.2 数据探索分析 164
7.2.3 数据预处理 166
7.2.4 模型构建 170
7.3 上机实验 175
7.4 拓展思考 176
7.5 小结 176
第8章 中医证型关联规则挖掘 177
8.1 背景与挖掘目标 177
8.2 分析方法与过程 178
8.2.1 数据获取 180
8.2.2 数据预处理 182
8.2.3 模型构建 186
8.3 上机实验 189
8.4 拓展思考 190
8.5 小结 190
第9章 基于水色图像的水质评价 191
9.1 背景与挖掘目标 191
9.2 分析方法与过程 192
9.2.1 数据预处理 193
9.2.2 构建模型 196
9.2.3 水质评价 199
9.3 上机实验 200
9.4 拓展思考 202
9.5 小结 202
第10章 基于关联规则的网站智能推荐服务 203
10.1 背景与挖掘目标 203
10.2 分析方法与过程 205
10.2.1 数据抽取 208
10.2.2 数据预处理 208
10.2.3 构建模型 214
10.3 上机实验 220
10.4 拓展思考 221
10.5 小结 221
第11章 应用系统负载分析与磁盘容量预测 222
11.1 背景与挖掘目标 222
11.2 分析方法与过程 224
11.2.1 数据抽取 225
11.2.2 数据探索分析 225
11.2.3 数据预处理 225
11.2.4 构建模型 228
11.3 上机实验 235
11.4 拓展思考 236
11.5 小结 237
第12章 面向网络舆情的关联度分析 238
12.1 背景与挖掘目标 238
12.2 分析方法与过程 240
12.2.1 数据抽取 240
12.2.2 数据预处理 241
12.2.3 构建模型 241
12.3 上机实验 254
12.4 拓展思考 255
12.5 小结 256
第13章 家用电器用户行为分析及事件识别 257
13.1 背景与挖掘目标 257
13.2 分析方法与过程 258
13.2.1 数据抽取 259
13.2.2 数据探索分析 260
13.2.3 数据预处理 260
13.2.4 模型构建 271
13.2.5 模型检验 273
13.3 上机实验 275
13.4 拓展思考 276
13.5 小结 278
第14章 基于基站定位数据的商圈分析 279
14.1 背景与挖掘目标 279
14.2 分析方法与过程 281
14.2.1 数据抽取 282
14.2.2 数据探索分析 282
14.2.3 数据预处理 283
14.2.4 构建模型 287
14.3 上机实验 290
14.4 拓展思考 291
14.5 小结 291
第15章 气象与输电线路的缺陷关联分析 292
15.1 背景与挖掘目标 292
15.2 分析方法与过程 296
15.2.1 数据抽取 297
15.2.2 数据探索分析 297
15.2.3 数据预处理 304
15.2.4 模型构建 307
15.3 上机实验 312
15.4 拓展思考 313
15.5 小结 315
提高篇 318
第16章 基于MATLAB的数据挖掘二次开发 318
16.1 混合编程应用体验——TipDM数据挖掘平台 318
16.1.1 建设目标 318
16.1.2 模型构建 319
16.1.3 模型发布 321
16.1.4 模型调用 323
16.1.5 模型更新 323
16.2 二次开发过程 323
16.2.1 接口算法编程 324
16.2.2 用Library Compiler创建Java组件 324
16.2.3 安装MATLAB运行时环境 326
16.2.4 JDK环境及设置 327
16.2.5 接口函数的调用 327
16.3 小结 329
参考文献 330