第1章 绪论 1
1.1 研究背景 1
1.2 多媒体程序并行特征分析 2
1.3 短向量计算相关体系结构研究 8
1.3.1 通用处理器中的短向量计算 8
1.3.2 单片同构/异构多核处理器 11
1.3.3 支持多媒体计算的流处理器 14
1.4 本书工作和创新点 19
1.5 本书结构 20
第2章 多粒度短向量计算多核结构 22
2.1 多粒度短向量计算考虑 22
2.1.1 数据级并行计算考虑 22
2.1.2 指令级并行计算考虑 25
2.1.3 线程级并行计算考虑 27
2.2 短向量计算多核互连 28
2.3 短向量计算多核存储系统 29
2.4 异构多核结构处理器——龙腾 31
第3章 支持高实时性响应的主控核研究 35
3.1 主控核高实时性响应分析 35
3.1.1 最差执行时间(WCET)估计 36
3.1.2 上下文切换分析 37
3.1.3 精确异常处理分析 37
3.1.4 高实时性与处理性能分析 40
3.2 支持高实时性响应的双流水线结构模型 41
3.2.1 双发射双流水线结构与分析 41
3.2.2 基于影子寄存器的分布式精确异常处理 44
3.3 龙腾R2处理器设计 46
3.3.1 龙腾R2指令集选择 46
3.3.2 龙腾R2微体系结构 47
3.3.3 龙腾R2流水线设计 48
3.3.4 龙腾R2芯片物理实现 51
3.4 支持HRCore-Model的龙腾R2处理器 55
3.4.1 双流水线结构实现及性能评测 55
3.4.2 精确异常处理设计 57
第4章 支持细粒度并行的短向量计算核研究 59
4.1 计算核细粒度并行分析 59
4.1.1 数据级并行粒度确定 59
4.1.2 指令级并行粒度确定 60
4.2 基于源操作数扩展的多粒度分裂式加法 62
4.2.1 短向量加法单元设计需求 62
4.2.2 分裂式加法单元结构分析 64
4.2.3 源操作数扩展加法单元 65
4.2.4 性能分析比较 67
4.3 计算核超标量控制逻辑单元设计 69
4.3.1 寄存器设计 70
4.3.2 读数算法和重命名算法设计 71
4.3.3 流水线结构设计与分析 72
4.4 短向量乘法单元设计 74
4.5 短向量排序单元(VPU)设计 75
第5章 基于特征参数的循环流数据预取研究 77
5.1 短向量循环流数据预取研究 77
5.2 短向量循环流数据预取评价 82
5.3 基于特征参数的循环流数据自适应预取引擎 84
5.3.1 LSAPE-IC的提出 84
5.3.2 LSAPE-IC的主要问题分析 85
5.3.3 LSAPE-IC的预取结构 89
5.4 LSAPE-IC性能评估 93
5.4.1 仿真平台及测试程序 93
5.4.2 仿真结果及分析 95
第6章 多核间局部紧耦合共享数据通信研究 100
6.1 多核间共享数据通信分析 101
6.1.1 共享数据存储一致性开销分析 101
6.1.2 缓解存储一致性墙的策略分析 102
6.1.3 基于消息传递的多媒体流处理 104
6.2 分布式轻量级主动推送缓冲区存储结构 106
6.2.1 DLWAP-Buffer硬件结构 107
6.2.2 DLWAP-Buffer控制协议 109
6.2.3 基于DLWAP-Buffer的流水线模型分析 110
6.2.4 DLWAP-Buffer代价及对比分析 114
6.3 DLWAP-Buffer性能评估 115
6.3.1 多核仿真平台设计 115
6.3.2 仿真应用程序移植 116
6.3.3 仿真结果及分析 117
第7章 结束语 120
7.1 本书所做的工作 120
7.2 关于进一步的研究 121
参考文献 123