《大数据技术丛书 大数据算法》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:王宏志编著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2015
  • ISBN:9787111508496
  • 页数:240 页
图书介绍:本书系统地介绍了大数据算法设计与分析的理论、方法和技术,针对大数据的特点,介绍了亚线性算法、外存算法、并行算法和众包算法。书中提供了大量关于大数据算法设计与分析的实例,旨在阐述大数据算法设计技术,有助于读者掌握相应的算法设计与分析方法。本书适用作为大数据相关专业本科生、研究生教材,也可供从事大数据相关工作的工程技术人员参考。

第1章 绪论 1

1.1大数据概述 1

1.1.1什么是大数据 1

1.1.2无处不在的大数据 1

1.1.3大数据的特点 3

1.1.4大数据的应用 4

1.2大数据算法 5

1.2.1大数据上求解问题的过程 6

1.2.2大数据算法的定义 7

1.2.3大数据的特点与大数据算法 9

1.2.4大数据算法的难度 9

1.2.5大数据算法的应用 10

1.3大数据算法设计与分析 11

1.3.1大数据算法设计技术 11

1.3.2大数据算法分析技术 12

1.4本书的内容 13

习题 13

第2章 时间亚线性算法 14

2.1时间亚线性算法概述 14

2.1.1平面图直径问题的亚线性算法 14

2.1.2排序链表搜索的亚线性算法 16

2.1.3两个多边形交集问题的多项式时间算法 17

2.2最小生成树代价估计 18

2.2.1连通分量个数估计算法 18

2.2.2最小生成树代价估计算法 20

2.3时间亚线性判定算法概述 23

2.4数组有序的判定算法 25

2.5串相等判定算法 27

习题 28

第3章 空间亚线性算法 29

3.1空间亚线性算法概述 29

3.2水库抽样 31

3.3寻找频繁元素的非随机算法 32

3.3.1频繁元素的精确解 33

3.3.2频繁元素的Misra-Gries算法 33

3.4估算不同元素的数量 35

3.4.1基本算法 35

3.4.2改进算法 38

3.5寻找频繁元素的随机算法 42

3.5.1略图法 42

3.5.2计数-最小略图 45

3.6估计频率矩 47

3.6.1频率矩的AMS估计算法 47

3.6.2基于拔河略图的频率矩估计 51

3.6.3使用稳定分布估计范数 53

习题 57

第4章 外存算法概述 60

4.1外存存储结构与外存算法概述 60

4.2外存算法示例:外存排序算法 64

4.2.1外存归并排序算法 64

4.2.2外存多路快速排序算法 68

4.2.3外存计算的下界 74

4.3外存数据结构示例:外存搜索树 77

习题 78

第5章 外存查找结构 80

5.1B树 80

5.2加权平衡B树 87

5.3持久B树 90

5.4缓存树 94

5.5KDB树 98

5.6O树 103

习题 107

第6章 外存图数据算法 109

6.1线性表排名及其应用 109

6.1.1线性表排名问题 109

6.1.2欧拉回路 114

6.1.3父子关系判定 115

6.1.4前序计数 116

6.1.5计算子树大小 117

6.2时间前向处理方法 117

6.2.1DAG形式逻辑表达式计算问题 118

6.2.2最大独立集合算法 121

6.3缩图法 124

6.3.1基于缩图法的图连通分量计算半外存算法 124

6.3.2基于缩图法的图连通分量计算全外存算法 126

6.3.3最小生成树算法 128

6.4广度优先搜索和深度优先搜索 128

6.4.1有向图的BFS和DFS 129

6.4.2无向图的BFS 134

6.4.3无向图更高效的BFS算法 136

6.5单源最短路径 139

6.5.1竞赛树 140

6.5.2Dijkstra算法的I/O高效版本 145

习题 149

第7章 MapReduce算法概述 150

7.1MapReduce基础 150

7.1.1MapReduce的基本模型 151

7.1.2mapper和reducer 152

7.1.3partitioner与combiner 155

7.2MapReduce算法设计方法 157

7.2.1局部聚合 158

7.2.2两种重要的算法设计模式——词对法和条块法 163

7.2.3二次排序 168

7.2.4MapReduce算法设计与算法实现技巧 168

习题 170

第8章 MapReduce算法例析 171

8.1连接算法 171

8.1.1普通连接算法 171

8.1.2相似连接算法 184

8.2图算法 192

8.2.1基于广度优先搜索的MapReduce图处理算法 193

8.2.2PageRank的MapReduce算法 197

8.2.3最小生成树的MapReduce算法 200

8.2.4使用图算法的注意事项 202

习题 203

第9章 超越MapReduce的并行大数据处理 204

9.1基于迭代处理平台的并行算法 204

9.2基于图处理平台的并行算法 212

9.2.1并行结点计算 213

9.2.2并行结点计算的平台 215

9.2.3基于并行结点计算的单源最短路径算法的设计与实现 219

9.2.4计算子图同构 221

习题 223

第10章 众包算法 224

10.1众包的定义 224

10.2众包的实例 225

10.3众包的要素和关键技术 228

10.3.1众包的流程 228

10.3.2众包的报酬 230

10.3.3众包中的关键技术 230

10.4众包算法例析 232

习题 237

参考文献 238