《多核结构多粒度短向量并行计算技术》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:(中国)黄小平,陈超
  • 出 版 社:北京:航空工业出版社
  • 出版年份:2019
  • ISBN:9787516518991
  • 页数:131 页
图书介绍:本文提出了一种支持短向量计算的异构多核处理器——龙腾MGHM。该多核处理器由支持高实时性响应的主控核和三个支持短向量并行计算的计算核组成,其中主控核执行操作系统等控制密集型程序,计算核通过多粒度可分裂的数据通路执行计算密集型程序。论文还介绍了作者在攻读博士期间作为技术负责人参与完成的龙腾R2微处理器。

第1章 绪论 1

1.1 研究背景 1

1.2 多媒体程序并行特征分析 2

1.3 短向量计算相关体系结构研究 8

1.3.1 通用处理器中的短向量计算 8

1.3.2 单片同构/异构多核处理器 11

1.3.3 支持多媒体计算的流处理器 14

1.4 本书工作和创新点 19

1.5 本书结构 20

第2章 多粒度短向量计算多核结构 22

2.1 多粒度短向量计算考虑 22

2.1.1 数据级并行计算考虑 22

2.1.2 指令级并行计算考虑 25

2.1.3 线程级并行计算考虑 27

2.2 短向量计算多核互连 28

2.3 短向量计算多核存储系统 29

2.4 异构多核结构处理器——龙腾 31

第3章 支持高实时性响应的主控核研究 35

3.1 主控核高实时性响应分析 35

3.1.1 最差执行时间(WCET)估计 36

3.1.2 上下文切换分析 37

3.1.3 精确异常处理分析 37

3.1.4 高实时性与处理性能分析 40

3.2 支持高实时性响应的双流水线结构模型 41

3.2.1 双发射双流水线结构与分析 41

3.2.2 基于影子寄存器的分布式精确异常处理 44

3.3 龙腾R2处理器设计 46

3.3.1 龙腾R2指令集选择 46

3.3.2 龙腾R2微体系结构 47

3.3.3 龙腾R2流水线设计 48

3.3.4 龙腾R2芯片物理实现 51

3.4 支持HRCore-Model的龙腾R2处理器 55

3.4.1 双流水线结构实现及性能评测 55

3.4.2 精确异常处理设计 57

第4章 支持细粒度并行的短向量计算核研究 59

4.1 计算核细粒度并行分析 59

4.1.1 数据级并行粒度确定 59

4.1.2 指令级并行粒度确定 60

4.2 基于源操作数扩展的多粒度分裂式加法 62

4.2.1 短向量加法单元设计需求 62

4.2.2 分裂式加法单元结构分析 64

4.2.3 源操作数扩展加法单元 65

4.2.4 性能分析比较 67

4.3 计算核超标量控制逻辑单元设计 69

4.3.1 寄存器设计 70

4.3.2 读数算法和重命名算法设计 71

4.3.3 流水线结构设计与分析 72

4.4 短向量乘法单元设计 74

4.5 短向量排序单元(VPU)设计 75

第5章 基于特征参数的循环流数据预取研究 77

5.1 短向量循环流数据预取研究 77

5.2 短向量循环流数据预取评价 82

5.3 基于特征参数的循环流数据自适应预取引擎 84

5.3.1 LSAPE-IC的提出 84

5.3.2 LSAPE-IC的主要问题分析 85

5.3.3 LSAPE-IC的预取结构 89

5.4 LSAPE-IC性能评估 93

5.4.1 仿真平台及测试程序 93

5.4.2 仿真结果及分析 95

第6章 多核间局部紧耦合共享数据通信研究 100

6.1 多核间共享数据通信分析 101

6.1.1 共享数据存储一致性开销分析 101

6.1.2 缓解存储一致性墙的策略分析 102

6.1.3 基于消息传递的多媒体流处理 104

6.2 分布式轻量级主动推送缓冲区存储结构 106

6.2.1 DLWAP-Buffer硬件结构 107

6.2.2 DLWAP-Buffer控制协议 109

6.2.3 基于DLWAP-Buffer的流水线模型分析 110

6.2.4 DLWAP-Buffer代价及对比分析 114

6.3 DLWAP-Buffer性能评估 115

6.3.1 多核仿真平台设计 115

6.3.2 仿真应用程序移植 116

6.3.3 仿真结果及分析 117

第7章 结束语 120

7.1 本书所做的工作 120

7.2 关于进一步的研究 121

参考文献 123