第1篇 基础篇 3
第1章 大数据时代下的数据挖掘 3
1.1大数据的基础 4
1.1.1大数据呈现出了数据的新价值 4
1.1.2数据采集、存储与提取技术信息化 5
1.1.3数据挖掘技术是大数据时代最本质特征 5
1.2大数据的特点 6
1.2.1数据规模大 6
1.2.2数据类型多 6
1.2.3价值密度低,但总体的数据价值高 7
1.2.4数据处理有速度要求 7
1.3大数据的作用 7
1.3.1数据已渗透到社会每个角落 8
1.3.2数据成为竞争的新元素 8
1.3.3数据创造新价值 9
1.3.4大数据地位不断跃升 9
1.4大数据与数据挖掘 10
1.4.1数据挖掘技术是大数据时代的灵魂和核心 10
1.4.2数据挖掘技术涉及多种多类的知识节点 10
1.4.3选择最好的数据挖掘工具 10
1.5令人期待的大数据时代 11
1.6本章小结 11
第2章 大数据与云计算 13
2.1大数据与云计算 13
2.1.1大数据与云计算关系 13
2.1.2大数据扩展了云计算服务类型 14
2.1.3云计算数据存储系统得到推广 14
2.1.4追求集成一体化技术 14
2.1.5大数据和云计算缺一不可 15
2.2云计算的定义与特点 15
2.2.1云计算的定义 15
2.2.2云计算的特点 15
2.3云计算的基本架构 16
2.3.1云计算架构的基本层次 16
2.3.2云计算架构的服务层次 16
2.4云计算的关键技术 17
2.4.1虚拟化技术 17
2.4.2数据存储技术 19
2.4.3资源管理技术 19
2.4.4云计算中的编程模型 20
2.4.5集成一体化技术 21
2.4.6自动化技术 21
2.5云计算的商业模式 21
2.5.1商业模式是云计算的基石 21
2.5.2云计算的市场规模 22
2.5.3云计算商业模式分析 22
2.6本章小结 23
第2篇 理论篇 27
第3章 数据挖掘的主要方法及工具 27
3.1数据挖掘主要方法 27
3.1.1决策树分类 27
3.1.2神经网络 33
3.1.3 Logistic回归方法 37
3.1.4聚类分析 38
3.1.5数据挖掘方法比较 39
3.1.6分类器的评估与选择 40
3.2流行数据分析平台及数据挖掘工具介绍 46
3.3本章小结 52
第4章 Logistic回归模型 53
4.1多元线性回归模型 53
4.2 Logistic回归模型 55
4.3 Logistic回归模型的参数估计 56
4.4 Logistic回归模型中回归系数的意义 58
4.5 Logistic回归模型的拟合优度 63
4.6 Logistic回归系数的显著性检验 72
4.7 Logistic回归模型的预测准确性 75
4.8回归变量的选择与逐步回归 77
4.9本章小结 83
第5章 数据挖掘建模过程 86
5.1 CRISP-DM 86
5.2 SAS数据挖掘方法论——SEMMA 88
5.3数据挖掘经验谈 89
5.4本章小结 89
第3篇 应用篇 93
第6章 金融行业应用1——信用评分 93
6.1国内信用卡业务现状 93
6.2信用评分模型的起源、类别和发展 94
6.3信用评分的步骤 95
6.4实例演示 97
6.4.1二元变量预测建模 98
6.4.2图形版建模输出讲解1——效果评价 101
6.4.3图形版建模输出讲解2——评分卡文件 103
6.5本章小结 109
第7章 金融行业应用2——信用卡催收评分 110
7.1信用卡催收评分模型背景介绍 110
7.2实例演示 112
7.2.1图形版连续变量预测建模 112
7.2.2图形版建模输出 114
7.3本章小结 116
第8章 保险电销应用——寻找目标客户 117
8.1背景介绍 117
8.2案例数据展示及分析 118
8.2.1业务目标 118
8.2.2数据展示 118
8.3数据挖掘与分析过程 120
8.3.1数据预处理 120
8.3.2造变量 122
8.3.3生成挖掘表 123
8.3.4建立响应模型 125
8.3.5建模结果分析 125
8.4数据挖掘结果的运用 129
8.5本章小结 129
第9章 电信行业应用——客户流失预测 131
9.1背景介绍 131
9.2案例数据展示及分析 131
9.2.1商业理解 131
9.2.2数据理解 132
9.2.3数据准备 132
9.3建立打分模型 133
9.4分析建模结果 134
9.5数据挖掘结果的运用 136
9.6本章小结 137
第10章 商品零售行业应用——购物篮分析 138
10.1某连锁零售公司的背景介绍 138
10.2购物篮分析的基本内容 139
10.2.1同次购买的基本概念 139
10.2.2同次购买的关联规则质量的衡量 140
10.2.3购买分析的实现 141
10.2.4下次购买的基本概念 142
10.2.5下次购买行为预测 142
10.3购物篮分析——MBA工具的使用 145
10.3.1 MBA工具的用途 145
10.3.2 MBA工具的使用 146
10.3.3 MBA工具的输出 146
10.4本章小结 149
第11章 实战项目——交叉销售 150
11.1背景介绍 150
11.2案例数据展示及分析 151
11.2.1数据展示 151
11.2.2业务目标及分析要求 152
11.3数据挖掘过程 152
11.3.1数据预处理 152
11.3.2划分数据集及生成目标变量 153
11.3.3生成衍生变量 154
11.3.4生成挖掘表 159
11.4建立打分模型 160
11.5结果分析 161
11.6本章小结 162
第12章 收益预测 163
12.1背景介绍 163
12.2数据展示 163
12.2.1原始数据集展示 163
12.2.2数据挖掘表的生成 165
12.3图形版建模 166
12.3.1建模过程 166
12.3.2模型输出 166
12.3.3为新数据集打分 168
12.4本章小结 170
参考文献 172