第1章 大数据概述 1
1.1 什么是大数据 2
1.1.1 大数据的定义和特征 2
1.1.2 大数据的发展历程 6
1.1.3 大数据的来源 11
1.2 大数据的哲学本质 12
1.2.1 大数据与世界观 13
1.2.2 大数据与认识论 14
1.2.3 大数据与方法论 15
1.2.4 大数据与价值观 18
1.3 大数据技术框架 19
1.3.1 大数据处理系统综述 19
1.3.2 大数据平台基础 20
1.3.3 大数据存储系统 22
1.3.4 大数据计算模型 23
1.4 大数据发展趋势 26
1.4.1 大数据的技术发展趋势 26
1.4.2 大数据的应用发展趋势 30
第2章 大数据的云计算基础 33
2.1 虚拟化技术 34
2.1.1 虚拟化的概念 34
2.1.2 虚拟化技术分类 35
2.1.3 虚拟化解决方案 36
2.1.4 虚拟化技术与大数据 39
2.2 OpenStack技术 40
2.2.1 OpenStack概述 40
2.2.2 OpenStack历史 41
2.2.3 OpenStack系统架构 41
2.2.4 OpenStack的优势和劣势 44
2.2.5 虚拟化与OpenStack技术比较 46
2.3 IaaS平台建设 47
2.3.1 IaaS平台介绍 47
2.3.2 IaaS云平台的种类 49
2.3.3 IaaS平台设计 51
2.3.4 IaaS平台解决方案 53
2.3.5 IaaS平台搭建 55
第3章 Hadoop基础组件 57
3.1 Hadoop概述 58
3.1.1 Hadoop简介 58
3.1.2 Hadoop系统架构 59
3.1.3 Hadoop的优势与不足 60
3.1.4 Hadoop的适用场景 63
3.1.5 Hadoop的商业模式 64
3.2 Hadoop分布式文件系统HDFS 65
3.2.1 HDFS的设计目标 65
3.2.2 HDFS的基本架构 67
3.2.3 HDFS的特点 68
3.2.4 HDFS的优势与缺点 70
3.3 Hadoop分布式计算框架MapReduce 72
3.3.1 MapReduce简介 72
3.3.2 MapReduce的运行流程 73
3.3.3 MapReduce与DataFlow比较 75
3.4 Hadoop统一资源管理框架YARN 76
3.4.1 YARN架构简介 76
3.4.2 YARN架构框架 77
3.4.3 YARN与旧MapReduce框架对比 79
3.4.4 YARN与Mesos框架对比 79
3.5 Hadoop分布式集群管理系统ZooKeeper 81
3.5.1 ZooKeeper简介 81
3.5.2 ZooKeeper总体架构 82
3.5.3 ZooKeeper的运行模式 84
3.5.4 ZooKeeper的设计要点 85
3.5.5 ZooKeeper的使用 87
第4章 Hadoop其他常用组件 89
4.1 Hadoop数据仓库工具Hive 90
4.1.1 Hive简介 90
4.1.2 Hive架构设计 91
4.1.3 Hive部署模式 92
4.1.4 Hive与关系型数据库比较 94
4.2 Hadoop分布式数据库HBase 97
4.2.1 HBase简介 97
4.2.2 HBase体系架构 97
4.2.3 HBase 性能分析 99
4.2.4 HBase容错机制 101
4.3 Hadoop实时流式处理引擎Storm-YARN 102
4.3.1 流式处理概述 102
4.3.2 Storm简介 103
4.3.3 Storm架构 105
4.3.4 Storm与Spark Streaming比较 106
4.4 Hadoop交互式查询引擎Impala 108
4.4.1 Impala简介 108
4.4.2 Impala架构分析 109
4.4.3 Impala与Hive比较 110
第5章 Spark内存计算框架 113
5.1 内存计算与Spark 114
5.1.1 内存计算概念 114
5.1.2 内存计算分类 116
5.1.3 Spark与内存数据处理系统 118
5.2 Spark概述 119
5.2.1 Spark架构 119
5.2.2 Spark的RDD模型 121
5.2.3 Spark与Hadoop的性能对比 121
5.3 Spark核心组件介绍 122
5.3.1 Spark SQL 122
5.3.2 Spark MLlib 123
5.3.3 Spark GraphX 123
5.3.4 Spark Streaming 124
5.4 Spark集群管理 125
5.4.1 Spark部署方式 125
5.4.2 Spark资源调度 126
5.4.3 Spark任务调度 127
第6章 大数据可视化技术 129
6.1 数据可视化的基本概念 131
6.2 数据可视化的发展趋势 132
6.3 数据可视化应用与设计 135
第7章 数据挖掘技术 139
7.1 什么是数据挖掘 140
7.2 数据挖掘的流程 142
7.3 数据挖掘典型算法 143
7.4 数据挖掘与大数据 151
第8章 大数据系统评价标准 153
8.1 大数据系统评价概述 154
8.1.1 信息时代的“云大物移” 154
8.1.2 大数据项目失败的常见原因 155
8.2 评价指标选取原则 157
8.3 大数据系统评价标准 159
8.3.1 通用评价要素 159
8.3.2 专有评价要素 160
8.4 大数据系统定位 161
8.4.1 与企业战略相匹配 161
8.4.2 与企业架构相匹配 162
8.4.3 与企业需求相匹配 162
8.5 大数据价值评估模型 164
8.6 大数据质量评价 165
8.6.1 数据流程视角 165
8.6.2 数据技术视角 167
8.6.3 数据管理视角 168
8.7 大数据安全评价 169
第9章 大数据在生活中的应用 173
9.1 食:食品安全 174
案例:阿里巴巴大数据协助食品安全风险控制 175
9.2 住:智能家居 176
案例:无锡市智能家居 177
9.3 行:智能交通 177
案例:深圳市智能综合交通运行指挥中心 180
9.4 游:智慧旅游 180
案例:无锡市智慧旅游立体化营销体系 181
9.5 购:电商营销 183
案例:京东大数据营销 185
第10章 大数据在政务领域的应用 187
10.1 条块分割拖累政务发展 188
10.2 数据统筹助力决策参考 190
案例:佛山市南海区数据统筹 192
10.3 服务整合创新社会管理 193
案例:无锡市智慧城管系统 194
10.4 资源整合强化公共服务 196
案例:无锡市政务服务平台 197
10.5 数据公开辅助政府监督 200
案例:上海市利用大数据实现市场监管 201
第11章 大数据在交通领域的应用 203
11.1 频繁拥堵造就城市顽疾 204
11.2 客流分析改进公交线路设计 205
案例:北京市大数据路线优化 206
11.3 多源数据辅助交通调查 206
案例:上海市综合交通特征分析 208
11.4 整合信息优化资源配置 210
案例:无锡市智慧交通信息工程 211
11.5 智能数据释难最后一公里 213
案例:共享单车便捷出行 214
第12章 大数据在医疗领域的应用 215
12.1 医疗数据挖掘行业价值 217
案例:无锡市智慧健康工程 218
12.2 海量数据助推远程医疗 221
案例:中日医院基于大数据让远程医疗、分级诊疗深入临床一线 222
12.3 移动医疗缓解资源紧缺 223
案例:春雨掌上医生 224
12.4 健康数据实现精准医疗 226
案例:微软亚洲研究院利用大数据推动癌症精准医疗 226
第13章 大数据在金融领域的应用 229
13.1 交易数据饱含金融商机 231
13.2 智能分析防范金融欺诈 232
案例:天下无贼反信息诈骗联盟 235
13.3 征信预测改善金融风控 236
案例:ZestFinance公司 237
13.4 “互联网+”催生金融产品 239
案例:蚂蚁金服 239
参考文献 241