并行编程方法与优化实践PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:刘文志著
- 出 版 社:北京:机械工业出版社
- 出版年份:2015
- ISBN:9787111501947
- 页数:216 页
第1章 X86SSE/AVX指令集 1
1.1 SSE内置函数 2
1.1.1 算术运算 2
1.1.2 逻辑运算 5
1.1.3 比较 5
1.1.4 加载和存储 6
1.2 AVX内置函数 8
1.2.1 算术运算 8
1.2.2 逻辑运算 10
1.2.3 比较 10
1.2.4 加载和存储 10
1.3 优化实例及分析 11
1.3.1 如何测得CPU的浮点峰值性能 11
1.3.2 积分计算圆周率π 14
1.3.3 稀疏矩阵向量乘法 16
1.3.4 二维单通道图像离散卷积 19
1.4 本章小结 22
第2章 ARMNEONSIMD指令优化 23
2.1 NEON指令集综述 23
2.2 ARMA15处理器性能 25
2.3 NEON支持的操作 25
2.3.1 基本算术运算 26
2.3.2 基本比较运算 28
2.3.3 基本数据类型转换及舍入运算 29
2.3.4 基本位运算 30
2.3.5 基本逻辑运算 30
2.3.6 基本设置加载存储操作 31
2.3.7 特殊操作 32
2.4 应用实例 33
2.4.1 彩色图像转灰度图像 33
2.4.2 矩阵转置 37
2.4.3 矩阵乘 39
2.5 本章小结 42
第3章 OpenMP程序设计 43
3.1 OpenMP编程模型 44
3.1.1 OpenMP执行模型 44
3.1.2 OpenMP存储器模型 45
3.2 环境变量 46
3.3 函数 46
3.3.1 普通函数 47
3.3.2 锁函数 48
3.4 OpenMP编译制导语句 49
3.4.1 常用的OpenMP构造 49
3.4.2 常用的OpenMP子句 59
3.5 OpenMP异构并行计算 65
3.6 OpenMP程序优化 66
3.6.1 OpenMP程序优化准则 66
3.6.2 OpenMP并行优化实例 67
3.7 本章小结 71
第4章 基于GPU的异构并行计算环境:CUDA与OpenCL 72
4.1 GPU计算概述 73
4.1.1 GPU计算历史 75
4.1.2 CUDA概述 76
4.1.3 OpenCL概述 77
4.2 异构并行计算模型 78
4.2.1 平台模型 79
4.2.2 执行模型 80
4.2.3 存储器模型 83
4.2.4 编程模型 85
4.3 C语言接口 86
4.3.1 OpenCL C语言 86
4.3.2 CUDA C语言 108
4.4 基于GPU的异构并行计算性能优化 122
4.4.1 总体优化准则 123
4.4.2 全局存储器优化 125
4.4.3 合并访问 125
4.4.4 局部存储器 127
4.4.5 存储体冲突 127
4.4.6 常量存储器优化 128
4.4.7 CUDA纹理存储器优化 129
4.4.8 寄存器及私有存储器优化 130
4.4.9 工作组数目及大小 131
4.4.10 占用率 132
4.4.11 指令优化 133
4.4.12 分支优化 133
4.4.13 数据传输优化 134
4.5 GPU与CPU精度差别 136
4.6 矩阵转置 137
4.6.1 初次实现 137
4.6.2 满足合并访问的实现 137
4.6.3 没有存储体冲突的实现 138
4.7 矩阵乘法 139
4.7.1 初次实现 140
4.7.2 矩阵分块实现 140
4.8 本章小结 141
第5章 OpenACC 143
5.1 OpenACC编程模型 143
5.1.1 执行模型 144
5.1.2 存储器模型 145
5.2 编译制导语句 146
5.2.1 kernels构造 147
5.2.2 parallel构造 147
5.2.3 线程配置相关子句 148
5.2.4 data构造 148
5.2.5 loop构造 150
5.2.6 atomic构造 151
5.2.7 dtype子句 151
5.2.8 reduction子句 152
5.2.9 变量可见性子句 152
5.2.10 if子句 152
5.2.11 async和wait 153
5.3 OpenACC和CUDA协作 153
5.3.1 CUDA使用OpenACC生产的数据 153
5.3.2 OpenACC使用CUDA生产的数据 155
5.4 两小时性能提升10倍 156
5.5 本章小结 158
第6章 多核向量处理器架构及OpenCL程序映射 159
6.1 多核向量处理器架构 159
6.1.1 Intel Haswell CPU架构 160
6.1.2 ARMA15多核向量处理器架构 163
6.1.3 AMDGCNGPU架构 164
6.1.4 NVIDIAKepler和MaxwellGPU架构 166
6.2 OpenCL程序在多核向量处理器上的映射 170
6.2.1 OpenCL程序在多核向量CPU上的映射 170
6.2.2 OpenCL程序在NVIDIA GPU上的映射 171
6.2.3 OpenCL程序在AMD GCN上的映射 174
6.3 本章小结 177
第7章 利用多种技术优化图像处理中的算法性能 178
7.1 图像滤波 178
7.1.1 均值滤波 178
7.1.2 中值滤波 184
7.2 图像直方图 189
7.2.1 OpenMP实现 189
7.2.2 CUDA实现 190
7.3 曼德勃罗集 195
7.3.1 串行算法 195
7.3.2 不适合进行向量化 196
7.3.3 OpenMP实现 196
7.3.4 CUDA实现 197
7.4 本章小结 197
第8章 利用多种技术优化线性代数中的算法性能 198
8.1 两向量距离 198
8.1.1 串行代码 198
8.1.2 循环展开代码 199
8.1.3 AVX指令加速 200
8.1.4 NEON实现 201
8.1.5 CUDA实现 203
8.2 稠密矩阵与向量乘法 205
8.2.1 串行算法 205
8.2.2 AVX指令加速 205
8.2.3 NEON实现 207
8.2.4 CUDA实现 208
8.2.5 OpenMP实现 214
8.3 本章小结 216
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《基于地质雷达信号波的土壤重金属污染探测方法研究》赵贵章 2019
- 《语文教育教学实践探索》陈德收 2018
- 《彼得·布鲁克导演实践研究》邓小玲著 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《反思性实践》胡红梅, 2019
- 《数学物理方法与仿真 第3版》杨华军 2020
- 《程序逻辑及C语言编程》卢卫中,杨丽芳主编 2019
- 《Helmholtz方程的步进计算方法研究》李鹏著 2019
- 《高含硫气藏开发腐蚀控制技术与实践》唐永帆,张强 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019