大数据处理PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:金海,石宣化主编
- 出 版 社:北京:高等教育出版社
- 出版年份:2018
- ISBN:9787040509359
- 页数:325 页
第1章 大数据处理基础 1
1.1 大数据特征 1
1.1.1 基本特征 1
1.1.2 数据模型 3
1.2 大数据存储模式 5
1.2.1 分布式文件系统 5
1.2.2 大数据存储形式 8
1.2.3 大数据存储实例 9
1.3 大数据处理模式 10
1.3.1 并行处理 10
1.3.2 分布式处理 13
1.3.3 控制流的处理 18
1.3.4 数据流的处理 20
1.4 大数据编程模式 21
1.4.1 批处理 21
1.4.2 流处理 21
1.4.3 交互式数据处理 22
1.4.4 图处理 23
1.5 大数据处理体系结构 23
1.5.1 数据中心 24
1.5.2 数据中心体系结构 24
1.5.3 数据中心的网络拓扑结构 27
1.6 本章小结与全书内容组织 31
参考文献 32
习题 32
第2章 大数据存储基础 33
2.1 分布式存储系统简介 33
2.1.1 分布式存储系统的基本概念 34
2.1.2 数据分布 35
2.1.3 复制与一致性 38
2.1.4 容错机制 40
2.1.5 可扩展性 41
2.2 分布式文件系统 43
2.2.1 分布式文件系统概述 43
2.2.2 HDFS的系统架构 45
2.2.3 数据分布 48
2.2.4 复制与一致性 50
2.2.5 容错机制 51
2.2.6 读写流程 54
2.3 分布式键值系统 57
2.3.1 分布式键值系统概述 57
2.3.2 Dynamo概述 57
2.3.3 数据分布 59
2.3.4 复制与一致性 60
2.3.5 容错机制 63
2.3.6 负载均衡 65
2.3.7 读写流程 67
2.4 新型存储器件驱动的内存系统 68
2.4.1 内存系统对大数据处理的重要性 68
2.4.2 非易失性存储器 70
2.4.3 异构内存系统 73
2.5 本章小结 75
参考文献 76
习题 76
第3章 大数据管理基础 77
3.1 大数据管理挑战概述 77
3.1.1 面向数据管理的大数据特征 77
3.1.2 大数据的管理需求 79
3.2 大数据的划分 81
3.2.1 数据划分方法 81
3.2.2 数据一致性理论 84
3.3 大数据的组织管理方式 88
3.3.1 关系数据库 89
3.3.2 Key-Value数据库 92
3.3.3 列族数据库 94
3.3.4 文档数据库 96
3.3.5 图数据库 99
3.4 大数据仓库系统 106
3.4.1 数据仓库的发展历史 108
3.4.2 大数据仓库的特性 114
3.4.3 实例:Hive分析 118
3.4.4 大数据仓库的未来 128
3.5 本章小结 129
参考文献 129
习题 129
第4章 大数据编程 131
4.1 函数式编程 131
4.1.1 函数式编程的起源 131
4.1.2 函数式语言家族成员 133
4.1.3 函数式编程的概念及特点 137
4.2 MapReduce编程 143
4.2.1 MapReduce的起源 143
4.2.2 MapReduce的工作原理 145
4.2.3 MapReduce的主要特点 148
4.3 MapReduce案例研究 151
4.3.1 WordCount程序分析 151
4.3.2 PageRank程序分析 155
4.4 本章小结 161
参考文献 161
习题 161
第5章 大数据流处理 163
5.1 流处理基础和应用 163
5.1.1 流处理概述 163
5.1.2 流处理应用 166
5.2 分布式流计算 169
5.2.1 数据封装 169
5.2.2 建立应用拓扑 171
5.2.3 指定操作的并行度 172
5.2.4 指定数据分组与传输方式 173
5.2.5 本节小节 174
5.3 开源系统及编程模型 175
5.3.1 Apache Storm 175
5.3.2 Spark Streaming 180
5.3.3 Apache Flink 184
5.4 流处理系统机制及优化 188
5.4.1 流处理调度及优化 188
5.4.2 流处理一致性语义 192
5.4.3 流处理容错 195
参考文献 197
习题 197
第6章 图计算 199
6.1 图计算背景 199
6.1.1 图计算简介 199
6.1.2 图计算特点 201
6.1.3 图计算实例 201
6.2 图计算并行编程模型 202
6.2.1 以点为中心的编程模型 202
6.2.2 以边为中心的编程模型 205
6.2.3 以路径为中心的编程模型 205
6.2.4 以子图为中心的编程模型 208
6.3 图划分和通信 209
6.3.1 图划分策略 210
6.3.2 消息推送机制 212
6.4 单机图计算系统 215
6.4.1 内存图计算系统 216
6.4.2 核外图计算系统 220
6.5 图计算硬件加速技术 229
6.5.1 基于GPU的图计算加速技术 229
6.5.2 基于MIC的图计算加速技术 233
6.5.3 基于FPGA的图计算加速技术 234
6.5.4 基于ASIC的图计算加速技术 236
6.6 图算法案例 239
6.6.1 图拓扑属性算法 240
6.6.2 图数据管理和查询算法 244
6.7 图计算性能评价 246
6.8 本章小结 251
参考文献 251
习题 252
第7章 大数据系统管理 255
7.1 统一资源管理 255
7.1.1 统一资源管理的设计思想 257
7.1.2 统一资源管理的基本架构 258
7.1.3 统一资源管理的工作流程 260
7.2 大数据系统资源调度 265
7.2.1 资源调度系统的架构 265
7.2.2 典型调度算法 268
7.3 大数据系统的协调技术 274
7.3.1 协调系统的架构与原理 274
7.3.2 复制状态机模型 278
7.3.3 分布式一致性算法 279
7.4 案例研究 282
7.4.1 YARN 283
7.4.2 ZooKeeper 286
7.5 本章小结 289
参考文献 290
习题 290
第8章 大数据系统优化技术 291
8.1 存储优化 292
8.1.1 数据局部性优化 292
8.1.2 服务可扩展性优化 298
8.2 调度优化 301
8.2.1 调度模型 301
8.2.2 数据本地化 302
8.2.3 负载均衡 304
8.2.4 拖后腿问题与推测执行 307
8.3 运行时优化 310
8.3.1 中间结果缓存 310
8.3.2 序列化开销优化 313
8.4 本章小结 319
参考文献 320
习题 320
第9章 大数据资源链接 321
重要名词索引 323
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《全国高等中医药行业“十三五”创新教材 中医药学概论》翟华强 2019
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《习近平总书记教育重要论述讲义》本书编写组 2020
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《高等数学试题与详解》西安电子科技大学高等数学教学团队 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《教育学考研应试宝典》徐影主编 2019
- 《语文教育教学实践探索》陈德收 2018
- 《家庭音乐素养教育》刘畅 2018