第1篇 大数据分析基础 3
第1章 大数据概述 3
1.1大数据的业务应用场景 3
1.1.1大数据的产生及特征 3
1.1.2大数据现状及趋势 4
1.1.3大数据时代面临的技术问题 7
1.2云计算与大数据挖掘 9
1.2.1云计算的定义与特点 9
1.2.2云计算与大数据 10
1.2.3大数据挖掘 11
1.3大数据挖掘过程概述 13
1.3.1挖掘目标的定义与数据理解 14
1.3.2数据准备与数据理解 14
1.3.3过程模型的建立 16
1.3.4过程模型的评估 17
1.3.5模型的部署与应用 17
小结 17
习题 18
第2章 大数据相关技术 19
2.1大数据获取技术 19
2.1.1分布式数据采集系统Flume 19
2.1.2分布式消息队列Kafka 22
2.1.3 Sqoop数据转移工具 24
2.1.4网络爬虫技术 27
2.1.5数据预处理工具Kettle 31
2.2大数据存储和处理技术 31
2.2.1数据处理架构技术演进 31
2.2.2 Hadoop分布式存储和计算平台 32
2.2.3流式数据计算引擎Storm 34
2.2.4 Spark分布式内存计算引擎 35
2.2.5大数据部署方案简介 38
2.3大数据查询和分析技术 38
2.3.1 SQL-on-Hadoop技术 38
2.3.2 OLAP分析引擎Kylin 40
2.3.3大数据分析技术Mahout 41
2.3.4大数据分析技术Spark MLlib 42
2.3.5其他常用分析语言比较 43
2.4大数据可视化技术 46
2.5主流大数据分析平台简介 49
小结 50
习题 50
第3章 数据预处理 51
3.1数据类型、数据特征与数据质量 51
3.1.1数据类型 51
3.1.2数据集与数据特征 52
3.1.3探索数据结构 53
3.1.4数据质量相关概念与数据质量分析 54
3.2数据采集与抽样 55
3.2.1数据采集概述 55
3.2.2数据采集方法与应用特性 55
3.2.3数据抽样概述 58
3.2.4数据抽样方法与应用特性 59
3.3数据预处理过程 62
3.3.1数据预处理的作用与任务 62
3.3.2数据清洗 62
3.3.3数据集成 65
3.3.4数据变换 67
3.3.5数据规约 71
3.4 Hadoop中的数据预处理应用 74
3.4.1使用MapReduce进行数据预处理 74
3.4.2使用Kettle和Python进行数据预处理 76
小结 79
习题 80
第4章 R语言工具的使用 82
4.1 R语言概述 82
4.1.1下载、安装和使用 82
4.1.2 R包的使用 84
4.2 R语言的基本操作 85
4.2.1数据的基本操作 85
4.2.2 R常用函数 93
4.3 R语言可视化绘图 97
4.3.1 R绘图参数设置 98
4.3.2常用图形的绘制 99
4.4 R语言数据分析 104
4.4.1数据处理基础函数 104
4.4.2多元统计分析 109
4.5 RHadoop安装与使用 117
4.5.1环境准备 118
4.5.2 RHadoop安装 118
4.5.3 RHadoop程序应用 120
小结 126
习题 126
第2篇 大数据挖掘技术 131
第5章 线性分类方法 131
5.1线性分类方法综述与评价准则 131
5.1.1线性分类方法综述 131
5.1.2分类方法评价准则 132
5.2多元线性回归分析 132
5.2.1回归分析原理 132
5.2.2多元线性回归分析R案例 133
5.3逻辑回归分析 139
5.3.1逻辑回归模型 139
5.3.2逻辑回归分析R案例 139
5.4线性判别分析 142
5.4.1线性判别分析原理 142
5.4.2线性判别分析R案例 143
5.5应用回归树和模型树进行数值预测实例 148
小结 153
习题 154
第6章 分类方法 155
6.1分类方法概要 155
6.1.1分类的基本原理 155
6.1.2主要分类方法 156
6.1.3分类器性能评价标准 157
6.2 K-近邻分类器 158
6.2.1 K-近邻分类算法 158
6.2.2 K-近邻算法实例 158
6.2.3 K-近邻的特点 161
6.3贝叶斯分类 161
6.3.1贝叶斯概述 161
6.3.2朴素贝叶斯分类原理 163
6.3.3朴素贝叶斯分类实例 164
6.3.4朴素贝叶斯的特点 166
6.4神经网络与深度学习 166
6.4.1神经网络基本原理 166
6.4.2深度学习 167
6.4.3分类实例 168
6.4.4人工神经网络及深度学习的特点 173
6.5支持向量机 174
6.5.1支持向量机的基本思想 174
6.5.2支持向量机理论基础 174
6.5.3支持向量机实例 175
6.5.4支持向量机的特点 180
小结 181
习题 181
第7章 聚类分析 183
7.1聚类分析方法概述 183
7.1.1聚类的基本概念 183
7.1.2类的度量方法 186
7.1.3聚类过程与应用 187
7.2 K-Means聚类 189
7.2.1 K-Means聚类的原理及步骤 189
7.2.2 K-Means特点与适用场景 190
7.2.3 K-Means聚类的算法实例 190
7.3层次聚类 195
7.3.1层次聚类的原理及步骤 195
7.3.2层次聚类算法及特点 195
7.3.3层次聚类的算法实例 197
7.4神经网络聚类 199
7.4.1 SOM算法的原理及步骤 200
7.4.2 SOM算法实例 205
7.5模糊FCM算法 207
7.5.1 FCM算法原理和步骤 207
7.5.2 FCM应用实例 208
7.6并行聚类分析 215
7.6.1并行聚类的分类 215
7.6.2并行聚类算法流程 218
7.6.3基于MapReduce聚类分析 218
7.7其他聚类分析算法 219
小结 223
习题 223
第8章 关联规则 225
8.1关联规则概述 225
8.1.1关联规则的基本概念 225
8.1.2关联规则的发现步骤 226
8.1.3关联规则挖掘算法分类 228
8.1.4应用场景及特点 229
8.1.5关联规则质量评价 230
8.2 Apriori算法 231
8.2.1 Apriori算法的基本原理 231
8.2.2 Apriori算法步骤 231
8.2.3 Apriori算法的频繁项集产生实例 232
8.2.4 Apriori算法的优缺点 241
8.3 FP-Growth算法 242
8.3.1 FP-Growth算法的基本思想 242
8.3.2 FP-tree表示法 242
8.3.3 FP-Growth算法的应用实例 243
8.3.4 FP-Growth算法的优缺点 247
8.4关联规则的后处理与扩展 247
8.4.1基于RHadoop的关联规则挖掘 247
8.4.2基于云计算的关联规则挖掘算法 247
8.4.3空间数据挖掘 248
小结 249
习题 250
第9章 预测方法与离群点诊断 252
9.1预测方法概要 252
9.1.1预测的概念及分类 253
9.1.2预测性能评价 254
9.1.3常用的预测方法 255
9.2灰色预测 256
9.2.1灰色预测原理及应用场景 257
9.2.2灰色预测实例 260
9.3马尔科夫预测 262
9.3.1马尔科夫预测原理 262
9.3.2马尔科夫预测实例 265
9.4离群点诊断 267
9.4.1离群点的定义、来源及分类 267
9.4.2各种离群点诊断技术 268
9.4.3基于聚类的离群点技术 271
9.4.4其他的离群点检测方法 273
小结 276
习题 276
第10章 时间序列分析 279
10.1时间序列的基本概念 279
10.2时间序列的组成因素及分类 280
10.3时间序列分析方法 282
10.3.1平稳时间序列分析方法 282
10.3.2季节指数预测法 283
10.4时间序列模型 283
10.4.1 ARMA模型 283
10.4.2 ARIMA模型 284
10.4.3 ARCH模型 284
10.4.4 GARCH模型 285
10.5偏差检测 286
小结 293
习题 294
第11章 大数据挖掘可视化 296
11.1大数据挖掘可视化概述 296
11.1.1常规数据可视化方法 297
11.1.2大数据可视化趋势与应用 298
11.2数据可视化技术 300
11.3可视化工具 302
11.3.1常用可视化工具简介 302
11.3.2大数据可视化面临的挑战 306
小结 307
习题 308
第3篇 大数据挖掘案例 311
第12章 大数据挖掘应用案例 311
12.1社交网络分析 311
12.1.1社交网络分析应用概述 311
12.1.2社交网络应用案例 312
12.2推荐系统 313
12.2.1推荐系统概述 313
12.2.2推荐系统应用案例 314
12.3零售行业大数据解决方案 315
12.3.1大数据在零售行业的创新性应用 315
12.3.2零售行业大数据应用案例 316
12.4金融:大数据理财时代 317
12.4.1大数据时代下金融业的机遇和面临的挑战 317
12.4.2金融行业大数据应用案例 317
12.4.3信用卡反欺诈预测模型构建案例 319
12.5临床医学大数据分析 333
12.5.1医疗行业大数据应用 333
12.5.2医疗行业大数据应用案例 334
12.5.3威斯康星乳腺癌数据分析实例 335
12.6交通行业大数据应用 347
12.6.1大数据在智能交通行业的挑战 348
12.6.2交通行业大数据应用案例 348
12.7生产制造业大数据应用 349
12.7.1大数据对生产制造业的影响及前景 349
12.7.2生产制造业大数据应用案例 350
12.8信息通信大数据解决方案 351
12.8.1信息通信大数据应用 351
12.8.2信息通信大数据应用案例 351
12.9精准营销的大数据企业管理 352
12.9.1大数据精准营销 352
12.9.2精准营销大数据应用案例 353
12.9.3基于大数据的中文舆情分析案例 354
12.10教育领域大数据应用案例 356
12.10.1教育领域大数据应用 356
12.10.2教育大数据应用案例 356
12.11互联网大数据应用 358
12.11.1大数据使生活更智能 358
12.11.2互联网大数据应用案例 358
12.12其他行业大数据应用 360
12.12.1能源业大数据应用 360
12.12.2公共事业管理大数据应用 360
小结 361
习题 361
参考文献 362