《并行计算的编程模型》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:(美)帕万·巴拉吉(Pavan Balaji)著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111573340
  • 页数:289 页
图书介绍:本书以使用说明的形式对当今主流的并行编程模型进行了详细描述,内容包括分布式内存架构上最常见的MPI(消息传递接口)编程模型;单边通信模型,范围从低层的运行时库(GASNet、 OpenSHMEM)到高层的编程模型(UPC、 GA、Chapel);面向任务的编程模型,包括Charm++、ADLB、Scioto、Swift、 CnC,由运行时系统来管理计算和数据移动;面向节点内并行(多核架构以及附带加速器)的并行编程模型,包括OpenMP、Cilk Plus、TBB、CUDA以及OpenCL。每章配备大量应用和程序实例,可以使读者很好地理解各种编程模型所提供的功能及特点。本书可作为高等院校并行编程课程的研究生教材,也可作为具有一定并行编程经验的软件开发人员、科研人员以及任何与数据集及大规模计算打交道的科学家的参考资料。

第1章 消息传递接口 1

1.1引言 1

1.2 MPI基础 1

1.3点对点通信 2

1.4数据类型 3

1.5非阻塞式通信 4

1.6聚合通信 5

1.7单边通信 7

1.8并行I/O 9

1.9其他特性 11

1.10 MPI开发心得 12

1.11总结 13

第2章 全局地址空间网络 14

2.1研究背景与动机 14

2.2 GASNet概述 14

2.2.1相关术语 15

2.2.2线程 15

2.2.3 API组织 16

2.3核心API 16

2.3.1开始和结束 16

2.3.2段信息 18

2.3.3屏障 18

2.3.4锁与中断 19

2.3.5活动消息 20

2.3.6活动消息进程 22

2.3.7活动消息规则与约束 22

2.3.8出错代码 23

2.4扩展API 23

2.4.1 GASNet段 23

2.4.2排序与内存模型 24

2.4.3阻塞与非阻塞 24

2.4.4批量与单个 24

2.4.5寄存器-内存与远程memset操作 24

2.4.6扩展API总结 25

2.5附加内容 26

2.5.1 GASNet工具 26

2.5.2可移植平台头文件 27

2.6示例 27

2.6.1编译和运行示例 27

2.6.2 Hello World示例 28

2.6.3 AM Ping-Pong示例 28

2.6.4 AM Ring示例 30

2.6.5 MCS Locks示例 32

2.7未来方向 35

第3章OpenSHMEM 37

3.1引言 37

3.2设计理念和根据 37

3.3 OpenSHMEM存储模型 39

3.4对称堆管理 39

3.4.1初始化和查询 40

3.4.2分配和释放 40

3.4.3关于分配和对称堆的说明 41

3.5远程内存访问:put和get 41

3.5.1 RMA函数语义 41

3.5.2 RMA函数使用 42

3.6排序和同步 44

3.6.1全局同步屏障 44

3.6.2 fence和quiet:RMA操作排序 45

3.6.3锁 46

3.6.4 wait和waituntil 46

3.7集合操作 47

3.7.1选择集合参与者 47

3.7.2同步数组和工作数组 47

3.7.3非全局同步屏障 48

3.7.4广播 48

3.7.5收集 49

3.7.6归约 50

3.8原子内存操作 51

3.8.1原子加和递增 52

3.8.2原子取-加和取-递增 52

3.8.3原子交换和条件交换 53

3.9未来方向 54

第4章 统一并行C 55

4.1 UPC简史 55

4.2 UPC编程模型 56

4.2.1术语 56

4.2.2全局地址空间 56

4.2.3执行模型 57

4.3 UPC概览 57

4.3.1自省 57

4.3.2数据布局 57

4.3.3通信 59

4.3.4 UPC内存一致性模型 60

4.3.5同步 61

4.3.6集合操作 62

4.4 UPC程序示例 63

4.4.1随机访问基准 63

4.4.2雅可比5点stencil 64

4.4.3排序示例 65

4.4.4一维FFT 68

4.5未来方向 71

第5章 全局数组 72

5.1引言 72

5.2编程模型与设计原则 73

5.3核心功能 74

5.4进程组 77

5.5扩展的数组结构 78

5.6稀疏数组操作的支持 79

5.7数组上的集合操作 80

5.8动态负载均衡 80

5.9实际应用 80

第6章Chapel 82

6.1 Chapel简史 82

6.1.1全面启动 82

6.1.2初始方向 83

6.1.3 HPCS时代 83

6.1.4后HPCS时代 84

6.2 Chapel的主题思想 84

6.2.1通用并行性表达 84

6.2.2支持多线程执行模型 85

6.2.3支持全局视图编程 85

6.2.4支持多尺度设计 85

6.2.5支持局部性控制 86

6.2.6支持以数据为中心的同步 86

6.2.7用户与编译器的不同角色 86

6.2.8缩小主流语言和HPC语言之间的差距 87

6.2.9从头开始(但争取令人熟悉) 87

6.2.10远大目标 88

6.2.11促使Chapel成为可移植的开源软件 88

6.3 Chapel特性概述 88

6.3.1基本语言特性 89

6.3.2任务并行 92

6.3.3数据并行 96

6.3.4位置特性 98

6.4总结与未来方向 100

第7章Charm+ 102

7.1引言 102

7.2 Charm的编程范例以及执行模型 102

7.2.1以过分解作为核心思想 102

7.2.2消息驱动的执行模型 103

7.2.3授权自适应运行时系统 104

7.3基本语言 104

7.3.1 chare:分解的基本单元 104

7.3.2入口方法:基本的调度单元 105

7.3.3异步方法调用 105

7.3.4带索引的chare集合:chare数组 105

7.3.5只读变量 106

7.3.6 Charm+++对象:用户及系统角度 107

7.3.7结构化匕首符号 108

7.3.8示例:一维分解的5点stencil代码 108

7.4过分解的好处以及消息驱动执行 110

7.4.1不依赖于处理器个数 110

7.4.2异步归约 110

7.4.3自适应计算与通信重叠 110

7.4.4合成性 111

7.4.5软件工程方面的好处:逻辑实体的相互独立 111

7.5一个设计示例:分子动力学模拟 111

7.6自适应运行时特性 112

7.6.1 Charm+++中负载均衡功能 112

7.6.2容错 113

7.6.3缩小或扩展处理器集合 114

7.6.4异构处理器以及加速器的支持 115

7.6.5额外特性 115

7.6.6实验特性:热能与功耗管理 115

7.7底层架构概述 115

7.8基于Charm++的高层次语言家族 116

7.9通过Charm++来开发应用程序 117

7.10作为研究工具的Charm ++ 118

7.11 Charm++:历史以及现状 118

7.12总结 118

第8章 异步动态负载均衡 119

8.1引言 119

8.2 manager-worker模型与负载均衡 119

8.3 ADLB库定义 121

8.3.1 API简介 121

8.3.2基本的ADLB API 122

8.3.3使用批处理优化内存使用 123

8.3.4获取和使用ADLB 124

8.4实现ADLB 124

8.4.1 ADLBM实现 124

8.4.2其他实现 125

8.5示例 125

8.5.1一个简单的批处理调度 125

8.5.2动态任务创建:数独解法 126

8.5.3任务单元类型:旅行推销员问题 127

8.5.4 GFMC 127

8.5.5 Swift 128

8.6 DMEM:一个处理大数据的辅助库 128

8.7总结与未来方向 129

第9章 可拓展任务对象集合 130

9.1 Scioto任务并行执行模型 131

9.1.1任务对象 131

9.1.2任务输入/输出模型 132

9.1.3任务执行模型 132

9.2多级并行任务集合 133

9.3 Scioto + GA编程接口 134

9.3.1核心编程结构 134

9.3.2实现一个Scioto任务 135

9.3.3示例:矩阵-矩阵乘法 135

9.4 Scioto运行时系统 136

9.4.1共享任务队列方法 136

9.4.2动态负载均衡方法 137

9.4.3终止检测 137

9.5总结 138

第10章Swift:极端规模的隐式并行脚本 139

10.1第一个示例:并行因式分解 140

10.2一个真实的示例:晶体坐标转换 140

10.3 Swift发展历史 142

10.4 Swift语言和编程模型 142

10.4.1 Hello World示例 143

10.4.2变量和标量数据类型 143

10.4.3数据流执行 144

10.4.4条件判断语句 145

10.4.5数据依赖控制流 145

10.4.6 foreach循环和数组 145

10.4.7 Swift函数 146

10.4.8外部函数 147

10.4.9文件和app函数 148

10.5 Swift执行模型 148

10.6大规模并行运行时系统 150

10.7运行时架构 151

10.8性能分析 153

10.9 Swift的大规模并行编译 153

10.10相关工作 154

10.11总结 155

第11章 并发集合编程模型 157

11.1引言 157

11.2研究动机 158

11.3 CnC领域语言 158

11.3.1概述 158

11.3.2特征 160

11.3.3示例 161

11.3.4执行语义 162

11.3.5 CnC编程 163

11.3.6未来工作 167

11.4 CnC调优语言 168

11.4.1描述 168

11.4.2特征 171

11.4.3示例 171

11.4.4执行模型 173

11.4.5未来工作 175

11.5当前状态 175

11.6相关工作 175

11.7总结 177

第12章OpenMP 178

12.1引言 178

12.2概述 179

12.2.1术语 179

12.2.2管理数据环境 180

12.2.3 OpenMP概念简述 181

12.3 OpenMP特性 182

12.3.1并行区域 182

12.3.2同步 186

12.3.3工作共享 187

12.3.4任务并行化 191

12.3.5向量化 195

12.3.6加速器支持 196

12.3.7区域取消 199

12.4性能优化建议 200

12.5关于正确性的思考 201

12.6总结与未来方向 201

第13章Cilk Plus 202

13.1引言 202

13.2向量并行化 203

13.2.1数组标注 204

13.2.2 pragma SIMD 205

13.2.3支持SIMD的函数 206

13.3线程并行 208

13.4并行性能 211

13.5数据竞争 215

13.6实践技巧 216

13.7历史 219

13.8总结 220

第14章IntelTBB工具 221

14.1引言 221

14.1.1概述 221

14.1.2基本信息 221

14.2泛型并行算法 222

14.2.1简单循环的并行化 222

14.2.2在STL容器中处理数据 223

14.2.3复杂迭代空间 224

14.2.4其他算法 226

14.3流图 226

14.3.1概述 227

14.3.2节点通信协议 227

14.3.3控制依赖图 228

14.3.4数据流图 230

14.3.5流图、算法和无环图的选择 232

14.4总结 232

第15章C U DA 233

15.1 CUDA简史 233

15.2 CUDA编程结构 234

15.3示例:向量加法 235

15.4设备内存和数据传输 236

15.5 kernel函数与线程 238

15.6线程组织 240

15.7线程和多维数据的映射 242

15.8同步与透明可扩展性 243

15.9线程块的资源分配 244

15.10 CUDA流与任务并行 244

15.11总结 248

第16章OpenCL开放计算语言 249

16.1计算语言与OpenCL 249

16.2基本定义 250

16.3计算机、编程和异构 250

16.4 OpenCL的诞生 251

16.5 OpenCL的核心模型 252

16.5.1平台模型 252

16.5.2执行模型 253

16.5.3内存模型 255

16.5.4编程模型 257

16.6 OpenCL主机程序:向量加法 258

16.7总结 266

参考文献 268