第1篇 大数据云计算概论 3
第1章 大数据概述 3
1.1 大数据产生与发展 3
1.1.1 大数据产生背景 3
1.1.2 大数据发展历程 3
1.1.3 当前大数据 5
1.2 大数据概念与特征 6
1.2.1 大数据概念 6
1.2.2 大数据的特点 7
1.3 大数据应用 7
1.3.1 企业内部大数据应用 8
1.3.2 物联网大数据应用 8
1.3.3 面向在线社交网络大数据的应用 9
1.3.4 医疗健康大数据应用 9
1.3.5 群智感知 10
1.3.6 智能电网 10
1.4 大数据的研究与展望 11
1.5 本章小结 12
第2章 大数据和云计算 14
2.1 大数据和云计算的关系 14
2.1.1 大数据和云计算关系概述 14
2.1.2 云计算是大数据处理的基础 15
2.1.3 大数据是云计算的延伸 16
2.2 云计算概念 16
2.2.1 云的兴起 16
2.2.2 云计算的定义及其特点 17
2.2.3 云计算名称的来历 19
2.3 云计算类型 19
2.3.1 基础设施类 19
2.3.2 平台类 21
2.3.3 应用类 22
2.3.4 以所有权划分云计算系统类型 23
2.4 云计算商业模式 24
2.4.1 商业模式是云计算的基石 24
2.4.2 云计算的市场规模 24
2.4.3 云计算商业模式分析 24
2.5 本章小结 25
第3章 大数据应用价值 26
3.1 大数据在电子商务中的应用 27
3.1.1 大数据是电子商务发展要素 27
3.1.2 电子商务大数据的实用措施 27
3.1.3 电子商务大数据的转型路径 28
3.2 大数据在金融的应用 29
3.2.1 大数据金融的提出 29
3.2.2 大数据金融的功能 34
3.2.3 大数据金融的挑战 35
3.2.4 大数据金融创新 37
3.3 大数据在媒体的应用 39
3.3.1 传统媒体的不足 40
3.3.2 大数据驱动传统媒体的升级 40
3.3.3 大数据引领新媒体发展 41
3.4 大数据在医疗上的应用 43
3.4.1 大数据改进临床决策支持系统 44
3.4.2 大数据助推医疗产品研发 44
3.4.3 大数据催生新医疗服务模式 45
3.5 大数据在教育上的应用 47
3.5.1 大数据教育与传统教育的优势 47
3.5.2 大数据教学模式的不断改善 47
3.5.3 教育大数据市场的广阔前景 48
3.5.4 大数据变革教育应用的实践措施 49
3.6 本章小结 49
第2篇 大数据云计算关键技术 53
第4章 分布式计算框架 53
4.1 分布式计算基本概念 53
4.1.1 分布式计算与并行计算 53
4.1.2 分布式计算和并行计算的比较 54
4.2 Hadoop系统介绍 55
4.2.1 Hadoop发展历程 55
4.2.2 Hadoop使用场景和特点 56
4.2.3 Hadoop项目组成 57
4.3 分布式文件系统 57
4.3.1 分布式文件系统概述 57
4.3.2 HDFS架构 58
4.3.3 HDFS设计特点 59
4.4 MapReduce计算模型 60
4.4.1 MapReduce概述 60
4.4.2 MapReduce应用实例 61
4.4.3 MapReduce实现和架构 62
4.5 分布式协同控制 63
4.5.1 常见分布式并发控制方法 63
4.5.2 Google Chubby并发锁 64
4.6 Spark计算框架 66
4.6.1 Spark简介 66
4.6.2 Spark生态系统 67
4.7 Flink计算框架 72
4.7.1 Flink简介 72
4.7.2 Flink中的调度简述 73
4.7.3 Flink的生态圈 74
4.8 本章小结 74
第5章 NoSQL数据库 76
5.1 NoSQL数据库概述 76
5.1.1 NoSQL数据库的4大分类 76
5.1.2 数据库系统CAP理论和 BASE理论 78
5.1.3 NoSQL的共同特征 79
5.2 Hbase数据库 80
5.2.1 HBase简介 80
5.2.2 HBase访问接口 80
5.2.3 H Base数据模型 81
5.2.4 MapReduce on HBase 82
5.2.5 HBase系统架构 83
5.3 本章小结 87
第6章 机器学习 88
6.1 机器学习概述 88
6.1.1 机器学习分类 88
6.1.2 机器学习发展历程 92
6.2 机器学习常用的算法 93
6.2.1 回归算法 93
6.2.2 基于实例的算法 93
6.2.3 正则化方法 94
6.2.4 决策树算法 94
6.2.5 贝叶斯方法 94
6.2.6 基于核的算法 95
6.2.7 聚类算法 95
6.2.8 关联规则学习 96
6.2.9 遗传算法 96
6.2.10 人工神经网络 97
6.2.11 深度学习 97
6.2.12 降低维度算法 97
6.2.13 集成算法 98
6.3 本章小结 98
第7章 虚拟化 99
7.1 虚拟化概述 99
7.1.1 虚拟化发展历史 99
7.1.2 虚拟化技术的发展热点和趋势 100
7.1.3 虚拟化技术的概念 101
7.2 虚拟化的分类 102
7.2.1 从实现的层次划分 102
7.2.2 从应用的领域划分 105
7.3 应用虚拟化 109
7.3.1 应用虚拟化的使用特点 109
7.3.2 应用虚拟化的优势 110
7.3.3 应用虚拟化要考虑的问题 111
7.4 桌面虚拟化 111
7.4.1 桌面虚拟化优势 111
7.4.2 桌面虚拟化使用条件 112
7.5 服务器虚拟化 112
7.5.1 服务器虚拟化架构 112
7.5.2 CPU虚拟化 113
7.5.3 内存虚拟化 115
7.5.4 I/O虚拟化 117
7.6 网络虚拟化 118
7.6.1 传统网络虚拟化技术 118
7.6.2 主机网络虚拟化 119
7.6.3 网络设备虚拟化 121
7.7 存储虚拟化 125
7.7.1 存储虚拟化概述 125
7.7.2 按照不同层次划分存储虚拟化 126
7.7.3 按照实现方式不同划分存储虚拟化 128
7.8 本章小结 130
第8章 Docker容器 131
8.1 Docker容器概述 131
8.1.1 Docker容器的由来 131
8.1.2 Docker定义 133
8.1.3 Docker的优势 134
8.2 Docker的原理 134
8.2.1 Linux Namespace(ns) 135
8.2.2 Control Groups(cgroups) 136
8.2.3 Linux容器(LXC) 137
8.2.4 AUFS 137
8.2.5 Grsec 140
8.3 Docker技术发展与应用 140
8.3.1 Docker解决的问题 140
8.3.2 Docker的未来发展 141
8.3.3 Docker技术的局限 141
8.4 本章小结 141
第9章 Web 2.0 142
9.1 Web 2.0产生背景和定义 142
9.1.1 Web 2.0产生背景 142
9.1.2 Web 2.0的概念 143
9.1.3 Web 2.0和Web 1.0比较 143
9.1.4 Web 2.0特征 145
9.2 Web 2.0应用产品 145
9.2.1 Web 2.0主要应用产品 146
9.2.2 主要产品的区别 147
9.3 Web 2.0相关技术 148
9.3.1 Web 2.0的设计模式 148
9.3.2 Web标准 149
9.3.3 向Web标准过渡 151
9.4 本章小结 155
第10章 绿色数据中心 156
10.1 绿色数据中心概述 156
10.1.1 云数据中心发展阶段 156
10.1.2 绿色数据中心架构 157
10.1.3 云数据中心需要整合的资源 158
10.2 数据中心管理和维护 158
10.2.1 实现端到端、大容量、可视化的基础设施整合 159
10.2.2 实现虚拟化、自动化的管理 159
10.2.3 实现面向业务的应用管理和流量分析 160
10.3 本章小结 161
第3篇 云计算架构 165
第11章 基础设施即服务 165
11.1 IaaS概述 165
11.1.1 IaaS的定义 165
11.1.2 IaaS提供服务的方法 166
11.1.3 IaaS云的特征 166
11.1.4 IaaS和虚拟化的关系 167
11.2 IaaS技术架构 167
11.2.1 资源层 167
11.2.2 虚拟化层 168
11.2.3 管理层 169
11.2.4 服务层 170
11.3 IaaS云计算管理 170
11.3.1 自动化部署 170
11.3.2 弹性能力提供技术 171
11.3.3 资源监控 172
11.3.4 资源调度 173
11.3.5 业务管理和计费度量 174
11.4 Amazon云计算案例 175
11.4.1 概述 175
11.4.2 Amazon S3 176
11.4.3 Amazon Simple DB 177
11.4.4 Amazon RDS 178
11.4.5 Amazon SQS 178
11.4.6 Amazon EC2 179
11.5 本章小结 180
第12章 平台即服务 182
12.1 PaaS概述 182
12.1.1 PaaS的由来 182
12.1.2 PaaS的概念 183
12.1.3 PaaS模式的开发 183
12.1.4 PaaS推进SaaS时代 185
12.2 PaaS架构 186
12.2.1 PaaS的功能 187
12.2.2 多租户弹性是PaaS的核心特性 187
12.2.3 PaaS架构的核心意义 188
12.2.4 PaaS改变未来软件开发和维护模式 190
12.3 Google的云计算平台 191
12.3.1 设计理念 192
12.3.2 构成部分 192
12.3.3 App Engine服务 193
12.4 Windows Azure平台 194
12.4.1 Windows Azure操作系统 194
12.4.2 SQLAzure 195
12.4.3.NET服务 196
12.4.4 Live服务 196
12.4.5 Windows Azure Platform的用途 197
12.5 本章小结 197
第13章 软件即服务 199
13.1 SaaS概述 199
13.1.1 SaaS的由来 199
13.1.2 SaaS的概念 200
13.1.3 SaaS与传统软件的区别 201
13.1.4 SaaS模式应用于信息化优势 202
13.1.5 SaaS成熟度模型 203
13.2 模式及实现 204
13.2.1 SaaS商务模式 204
13.2.2 SaaS平台架构 206
13.2.3 SaaS服务平台的主要功能 207
13.2.4 SaaS服务平台关键技术 210
13.3 Salesforce云计算案例 213
13.3.1 Salesforce云计算产品组成 213
13.3.2 Salesforce云计算特点 214
13.4 本章小结 215
第14章 容器即服务 216
14.1 容器云服务 216
14.1.1 云平台架构层次 216
14.1.2 容器云 217
14.1.3 容器云的特点 217
14.2 Kubernetes应用部署 220
14.2.1 Kubernetes架构 220
14.2.2 Kubernetes模型 221
14.2.3 内部使用者的服务发现 222
14.2.4 外部访问Service 224
14.3 Mesos应用 225
14.3.1 Mesos体系结构和工作流 225
14.3.2 Mesos流程 226
14.3.3 Mesos资源分配 226
14.3.4 Mesos优势 227
14.4 基于Kubernetes打造SAE容器云 228
14.4.1 Kubernetes的好处 228
14.4.2 容器云网络 228
14.4.3 容器云存储 230
14.5 基于Mesos去哪儿网容器云 230
14.5.1 背景 230
14.5.2 应用Mesos构建容器云 231
14.5.3 云环境构建 231
14.6 本章小结 234
第4篇 大数据云架构实践与编程 237
第15章 大数据云架构搭建 237
15.1 分布式Hadoop与Spark集群搭建 237
15.1.1 Hadoop集群构建 237
15.1.2 Spark集群构建 250
15.2 基于Docker大数据云架构 256
15.2.1 简介 256
15.2.2 Docker和Weave搭建 257
15.2.3 Hadoop集群镜像搭建 257
15.2.4 集群部署与启动 261
15.2.5 基于Ambari管理平台的镜像搭建 263
15.2.6 桌面系统XFCE搭建 265
15.3 本章小结 266
第16章 Spark大数据编程 267
16.1 Spark应用开发环境配置 267
16.1.1 使用Intellij开发Spark程序 267
16.1.2 使用Spark Shell开发运行Spark程序 272
16.2 Spark大数据编程 272
16.2.1 WordCount 272
16.2.2 股票趋势预测 274
16.3 本章小结 280
第5篇 大数据安全 283
第17章 大数据云计算面临的安全威胁 283
17.1 大数据云计算的安全问题 283
17.1.1 大数据基础设施安全威胁 283
17.1.2 大数据存储安全威胁 284
17.1.3 大数据云架构网络安全威胁 286
17.1.4 大数据带来隐私问题 286
17.1.5 针对大数据的高级持续性攻击 287
17.1.6 其他安全威胁 288
17.2 不同领域大数据的安全需求 288
17.2.1 因特网行业 289
17.2.2 电信行业 289
17.2.3 金融行业 290
17.2.4 医疗行业 290
17.2.5 政府组织 291
17.3 大数据安全内涵 291
17.3.1 保障大数据安全 292
17.3.2 大数据用于安全领域 293
17.4 大数据安全研究方向 294
17.4.1 大数据安全保障技术 294
17.4.2 大数据安全应用技术 295
17.5 本章小结 296
第18章 保障大数据安全 297
18.1 大数据安全的关键技术 297
18.1.1 非关系数据库安全策略 297
18.1.2 防范APT攻击 299
18.2 大数据安全保障实践 304
18.2.1 大数据采集与存储的安全防护 305
18.2.2 大数据挖掘与应用的安全防护 306
18.2.3 大数据安全审计 307
18.2.4 大数据安全评估与安全管理 308
18.2.5 数据中心的安全保障 308
18.3 本章小结 310
第19章 应用大数据保障安全 311
19.1 大数据安全检测及应用 311
19.1.1 安全检测与大数据的融合 311
19.1.2 用户上网流量数据的挖掘与分析 312
19.2 安全大数据 313
19.2.1 数据挖掘方法 314
19.2.2 挖掘目标及评估 315
19.3 基于大数据的网络态势感知 315
19.3.1 态势感知定义 315
19.3.2 网络态势感知 316
19.3.3 基于流量数据的网络安全感知 316
19.3.4 基于大数据分析的网络优化 318
19.3.5 网络安全感知应用实践 319
19.4 视频监控数据的安全应用 320
19.4.1 视频监控数据的处理需求 320
19.4.2 视频监控数据挖掘技术 320
19.4.3 海量视频监控数据的分析与处理 322
19.5 本章小结 322
参考文献 324