第1篇 大数据导论 5
第1章 初识大数据 5
1.1 大数据概念谈 7
1.1.1 大数据的定义 7
1.1.2 大数据发展现状 9
1.1.3 大数据建设需求分析 10
1.1.4 大数据建设目标 11
1.1.5 机器学习与人工智能 11
1.2 大数据的科学性 12
1.3 客户关系管理 17
1.4 大数据的理解误区 20
1.5 小结 26
第2章 大数据产业链初探 27
2.1 现金流与产业模式 28
2.2 国外IT企业 30
2.3 国内IT企业 32
2.4 开源软件 32
2.5 小微企业 35
2.6 政策制定者 37
2.7 小结 39
第2篇 规划篇 44
第3章 大数据体系规划 44
3.1 大数据技术体系 45
3.1.1 大数据采集与预处理 46
3.1.2 大数据存储 49
3.1.3 大数据计算 52
3.1.4 大数据分析 54
3.1.5 大数据治理 60
3.1.6 大数据安全保障 63
3.1.7 大数据应用支撑 67
3.2 大数据共性技术重点课题 70
3.2.1 开放域数据采集与共享 70
3.2.2 多源异构数据分析技术 72
3.2.3 异构计算模式集成技术 75
3.2.4 数据安全与隐私保护 79
3.3 大数据风险管控 82
3.3.1 企业大数据建设风险分析 82
3.3.2 大数据安全标准体系框架 83
3.3.3 大数据安全标准规划 84
3.4 小结 86
第4章 大数据技术要求 87
4.1 大数据总体架构 90
4.1.1 背景概述 90
4.1.2 现状分析 90
4.1.3 总体目标 91
4.1.4 技术架构 91
4.1.5 实施指引 94
4.2 采集要求 96
4.2.1 功能架构 96
4.2.2 技术架构 96
4.2.3 处理技术 97
4.2.4 场景应用 101
4.2.5 接口协议 104
4.2.6 接口约定 104
4.2.7 性能指标 107
4.3 基础能力要求 107
4.3.1 总体概述 107
4.3.2 基础框架 109
4.3.3 能力开放 123
4.3.4 性能指标 128
4.4 核心处理能力要求 129
4.4.1 总体概述 129
4.4.2 数据模型 135
4.4.3 数据处理 139
4.4.4 数据质量 141
4.4.5 系统性能 144
4.5 需求与项目管理 145
4.6 小结 147
第3篇 实施篇 152
第5章 大数据并行计算框架 152
5.1 并行计算技术 153
5.1.1 基本命题 153
5.1.2 设计模式分类 155
5.1.3 关键技术点 159
5.2 MapReduce计算技术 162
5.2.1 处理模型设计原则 162
5.2.2 主要功能与技术设计 163
5.3 Hadoop MapReduce设计与工作模式 165
5.3.1 程序执行模式 166
5.3.2 作业调度模式 168
5.3.3 执行框架及流程设计 170
5.4 Hadoop MapReduce组件接口 171
5.4.1 InputFormat 171
5.4.2 InputSplit 172
5.4.3 RecordReader 173
5.4.4 Mapper 174
5.4.5 Combiner 176
5.4.6 Partitioner 176
5.5 小结 177
第6章 大数据分布式处理系统 178
6.1 Hadoop系统平台 179
6.1.1 分布式结构设计 179
6.1.2 Hadoop生态系统 180
6.2 HDFS分布式文件系统 183
6.2.1 系统结构 184
6.2.2 可靠性设计 186
6.2.3 文件存储组织 188
6.2.4 数据读写过程 190
6.2.5 文件系统操作 191
6.3 HBase分布式数据库 193
6.3.1 技术特点 193
6.3.2 系统结构设计 195
6.3.3 数据存储模型 195
6.3.4 查询模式 197
6.3.5 数据表设计 199
6.3.6 RegionServer配置 200
6.4 小结 203
第7章 大数据存储 204
7.1 磁盘阵列技术 205
7.2 数据存储接口 206
7.2.1 对象存储 206
7.2.2 裸设备存储 207
7.2.3 块存储 208
7.3 存储集群架构 209
7.3.1 共享式与非共享式 209
7.3.2 对称式与非对称式 210
7.3.3 自助式与服务式 211
7.3.4 SPI与SFI 212
7.3.5 串行方式与并行方式 212
7.4 数据存储技术本质 214
7.4.1 三网统一理论 215
7.4.2 并行概念理解 216
7.4.3 集群分层架构 217
7.5 数据分级存储探讨 218
7.5.1 超融合 218
7.5.2 冷数据 219
7.5.3 平台架构 220
7.5.4 应用场景 227
7.6 小结 228
第8章 机器学习与人工智能 229
8.1 数据挖掘 230
8.1.1 数据分类采集 232
8.1.2 模式类型设计 237
8.1.3 模式价值分析 239
8.1.4 系统关键技术 240
8.2 机器学习 242
8.2.1 算法分类 242
8.2.2 合适算法选择 243
8.2.3 程序开发设计 244
8.3 人工智能 245
8.3.1 模式定义 245
8.3.2 人工智能举例 246
8.4 小结 253
第4篇 运维篇 258
第9章 大数据集群网络架构 258
9.1 现有数据中心网络架构 259
9.1.1 架构分析 259
9.1.2 存在弊端 259
9.2 大数据网络设计要点 261
9.2.1 大数据业务分析 261
9.2.2 大数据网络流量模型 262
9.2.3 大数据网络新需求 264
9.3 新兴网络技术 264
9.3.1 SDN 264
9.3.2 NFV 268
9.3.3 VXLAN 269
9.3.4 InfiniBand 272
9.4 小结 273
第10章 大数据安全 274
10.1 大数据安全挑战 275
10.2 基础设施安全 276
10.2.1 存在威胁 276
10.2.2 虚拟化安全 277
10.3 数据安全 277
10.3.1 数据采集安全技术 278
10.3.2 数据存储安全技术 279
10.3.3 数据挖掘安全技术 282
10.3.4 数据发布安全技术 284
10.4 大数据平台Hadoop安全 286
10.4.1 Hadoop安全问题概述 286
10.4.2 Kerberos概述 287
10.4.3 Kerberos认证过程 288
10.4.4 Hadoop安全机制 289
10.4.5 Kerberos的优缺点 290
10.5 小结 291
第11章 大数据备份与恢复 292
11.1 数据备份与恢复 293
11.1.1 数据备份 293
11.1.2 数据恢复 297
11.2 分布式存储系统备份与恢复 297
11.2.1 概述 297
11.2.2 HDFS数据备份策略 301
11.3 小结 302
第12章 大数据环境的监管 303
12.1 概述 304
12.2 大数据集群配置管理 305
12.3 大数据集群监控 309
12.3.1 大数据监控特点 309
12.3.2 监控系统 310
12.3.3 监控系统建立途径 312
12.3.4 商业监控软件 312
12.3.5 开源监控软件 314
12.3.6 传统网络管理软件:网鹰 322
12.3.7 统一管理平台:UMP 324
12.4 大数据日志分析 326
12.5 小结 329
第13章 大数据的运维方法 330
13.1 运维服务 331
13.2 运维流程模型 332
13.2.1 故障排查 332
13.2.2 紧急事故管理 335
13.2.3 处理连锁故障 336
13.3 运维人员 339
13.3.1 需要具备的能力 339
13.3.2 任务内容 340
13.4 自动化与智能运维 342
13.4.1 自动化运维价值 342
13.4.2 自动化运维工具 343
13.5 小结 347
第5篇 实例篇 351
第14章 Oracle MoviePlex大数据规划 351
14.1 案例概述 352
14.1.1 案例背景 354
14.1.2 架构规划 355
14.2 大数据组件介绍 362
14.2.1 Cloudera的CDH 362
14.2.2 Cloudera管理器 363
14.2.3 Oracle大数据连接器 365
14.2.4 Oracle大数据加载器 365
14.2.5 Oracle大数据整合器 367
14.2.6 Oracle R语言连接器 367
14.2.7 Oracle NoSQL数据库 367
14.3 小结 369
第15章 Oracle MoviePlex大数据实施 370
15.1 环境准备 371
15.1.1 MoviePlex环境部署 371
15.1.2 MoviePlex环境初始化 375
15.2 案例演示 379
15.2.1 配置Oracle Big Data SQL 379
15.2.2 建立存放在HDFS中的日志表 380
15.2.3 Hive访问HDFS和NoSQL 382
15.2.4 Oracle Big Data SQL新功能 384
15.2.5 Oracle Big Data安全策略 386
15.2.6 Oracle分析SQL 388
15.2.7 Oracle SQL模式匹配 389
15.2.8 创建汇总数据集 391
15.2.9 Oracle Database 12c SQL分析特点 392
15.3 推荐系统 394
15.3.1 百万美元大奖赛 394
15.3.2 技术细节 395
15.4 小结 398
第16章 Oracle MoviePlex大数据运维 400
16.1 集群 401
16.1.1 Hadoop 402
16.1.2 ZooKeeper 404
16.2 文件系统和非关系数据库 407
16.2.1 HDFS 408
16.2.2 HBase 409
16.2.3 NoSQL 411
16.2.4 Kafka 413
16.3 中间件 415
16.3.1 WebLogic 415
16.3.2 Hue 418
16.3.3 Solr 420
16.4 数据转换 421
16.4.1 Hive 421
16.4.2 Impala 423
16.4.3 Sqoop2 425
16.5 资源整合调度 426
16.5.1 Oozie 426
16.5.2 YARN 427
16.6 小结 429
第6篇 明天的大数据 433
第17章 大数据面临的挑战 433
17.1 可靠性挑战 434
17.2 可扩展性挑战 435
17.3 系统安全挑战 436
17.4 节能降耗 437
17.5 算法挑战 439
17.6 测不准原理 439
17.7 小结 440
第18章 大数据应用 441
18.1 客户关系与供求管理 442
18.2 科学研究 445
18.3 教育大数据应用 447
18.4 区块链与加密货币 451
18.5 小结 453
结束语 455
附录A 安装Cloudera Apache Hadoop 463
A.1 环境准备 464
A.1.1 Cloudera管理器架构 464
A.1.2 服务器环境准备 465
A.1.3 安装介质下载 466
A.1.4 本地yum源搭建 466
A.2 安装Cloudera Manager Server 467
A.3 部署Hadoop集群 468
A.4 安装结果 468
附录B 在MATLAB中应用MapReduce 470
B.1 datastore简介 471
B.2 搜寻需要的项 472
B.3 MapReduce简介 473
B.4 如何运用MapReduce进行运算 473
B.5 MapReduce中对于键的使用 475
B.6 使用MapReduce计算分组指标 475
B.7 输出结果可视化 476
附录C 从AIphaGo到AIphaZero 479
参考文献 486