第1章 总述 1
1.1 什么是计算机体系结构 2
1.2 并行体系结构的基本组成 3
1.2.1 处理器 4
1.2.2 存储 6
1.2.3 互连 9
1.3 并行体系结构 10
1.3.1 指令级并行 10
1.3.2 线程级并行 10
1.3.3 向量和阵列处理器 11
1.4 性能 12
1.4.1 基准测试集 13
1.4.2 Amdahl定律 15
1.5 技术挑战 19
1.5.1 功耗和能量 19
1.5.2 可靠性 19
1.5.3 连线延迟 20
1.5.4 设计复杂度 20
1.5.5 尺寸缩小极限和CMOS终点 21
习题 22
第2章 工艺及其影响 25
2.1 概述 25
2.2 电学基本定律 26
2.2.1 欧姆定律 26
2.2.2 电阻 26
2.2.3 电容 27
2.3 MOSFET晶体管和CMOS反相器 27
2.4 工艺变更 30
2.5 功耗和能耗 31
2.5.1 动态功耗 31
2.5.2 静态功耗 35
2.5.3 功耗和能量指标 37
2.6 可靠性 38
2.6.1 故障和错误 38
2.6.2 可靠性指标 39
2.6.3 故障率和老化 40
2.6.4 瞬时故障 42
2.6.5 间歇性故障 44
2.6.6 永久性故障 48
2.6.7 工艺偏差及其对故障的影响 48
习题 49
第3章 处理器微结构 51
3.1 概述 51
3.2 指令集架构 52
3.2.1 指令类型和操作码 53
3.2.2 指令混合 55
3.2.3 指令操作数 55
3.2.4 异常、陷阱和中断 58
3.2.5 存储一致性模型 60
3.2.6 本书的核心ISA 60
3.2.7 CISC和RISC 61
3.3 静态调度流水线 63
3.3.1 经典五级流水线 64
3.3.2 指令乱序完成 69
3.3.3 超流水和超标量CPU 72
3.3.4 分支预测 73
3.3.5 静态指令调度 73
3.3.6 静态流水线的优缺点 77
3.4 动态调度流水线 78
3.4.1 解决数据相关:Tomasulo算法 79
3.4.2 推测执行 82
3.4.3 动态分支预测 83
3.4.4 支持推测的Tomasulo算法 87
3.4.5 动态内存歧义消除 89
3.4.6 显式寄存器重命名 91
3.4.7 指令发射后的寄存器读取 93
3.4.8 推测指令调度 94
3.4.9 打破数据流限制:值预测 97
3.4.10 单周期多指令 98
3.4.11 处理复杂ISA 98
3.5 超长指令字微结构 99
3.5.1 动态和静态技术 100
3.5.2 VLIW体系结构 100
3.5.3 循环展开 102
3.5.4 软件流水 103
3.5.5 非循环VLIW调度 108
3.5.6 谓词指令 109
3.5.7 推测内存歧义消除 110
3.5.8 异常 110
3.6 EPIC微结构 112
3.7 向量微结构 113
3.7.1 算术/逻辑向量指令 113
3.7.2 内存向量指令 114
3.7.3 向量分段开采和链接 115
3.7.4 条件语句 116
3.7.5 scatter和gather操作 117
习题 118
第4章 存储层次 136
4.1 概述 136
4.2 金字塔形存储层次 137
4.2.1 访存局部性 138
4.2.2 存储层次中的一致性 138
4.2.3 存储包含 139
4.3 cache层次 139
4.3.1 cache映射及组织方式 139
4.3.2 替换策略 142
4.3.3 写策略 143
4.3.4 cache层次的性能 144
4.3.5 cache失效的分类 145
4.3.6 非阻塞cache 145
4.3.7 cache预取和预加载 147
4.4 虚拟存储 149
4.4.1 引入虚存的动机 149
4.4.2 从操作系统视角看到的虚拟存储 149
4.4.3 虚地址转换 151
4.4.4 访存控制 151
4.4.5 多级页表 152
4.4.6 反向页表 153
4.4.7 旁路转换缓冲 153
4.4.8 带物理标识的虚地址cache 154
4.4.9 带虚标识的虚地址cache 157
习题 157
第5章 多处理器系统 162
5.1 概述 162
5.2 并行编程模型 163
5.2.1 共享内存系统 164
5.2.2 消息传递系统 166
5.3 基于消息传递的多处理器系统 167
5.3.1 消息传递原语 167
5.3.2 消息传递协议 169
5.3.3 消息传递协议的硬件支持 170
5.4 基于总线的共享内存系统 171
5.4.1 多处理器cache组织 172
5.4.2 一个简单的侦听cache协议 173
5.4.3 侦听cache协议的设计空间 176
5.4.4 协议变种 181
5.4.5 多阶段侦听cache协议的设计问题 184
5.4.6 通信事件的分类 188
5.4.7 TLB一致性 190
5.5 可扩展共享内存系统 192
5.5.1 目录协议的基本概念和术语 193
5.5.2 目录协议实现方法 193
5.5.3 目录协议的扩展性 197
5.5.4 层次化系统 200
5.5.5 页面迁移和复制 201
5.6 全cache共享内存系统 204
5.6.1 基本概念、硬件结构和协议 204
5.6.2 平坦COMA 206
习题 207
第6章 互连网络 214
6.1 概述 214
6.2 互连网络的设计空间 215
6.2.1 设计概念综述 215
6.2.2 延迟和带宽模型 217
6.3 交换策略 221
6.4 拓扑结构 223
6.4.1 间接网络 223
6.4.2 直接网络 226
6.5 路由技术 229
6.5.1 路由算法 229
6.5.2 死锁避免和确定性路由 231
6.5.3 放松路由限制:虚通道和转弯模型 232
6.5.4 进一步放松的路由算法:自适应路由 233
6.6 交换架构 234
习题 236
第7章 一致性、同步与存储一致性 238
7.1 概述 238
7.2 背景 239
7.2.1 共享内存通信模型 239
7.2.2 硬件组件 241
7.3 一致性和store原子性 244
7.3.1 多处理器一致性的实现困难 244
7.3.2 cache协议 246
7.3.3 store原子性 249
7.3.4 纯一致性 254
7.3.5 store原子性和访存交错 262
7.4 顺序一致性 262
7.4.1 顺序一致性的形式化模型 263
7.4.2 顺序一致性的访存顺序规则 265
7.4.3 入站消息管理 266
7.4.4 store同步性 270
7.5 同步 272
7.5.1 基本同步原语 273
7.5.2 基于硬件的同步 276
7.5.3 基于软件的同步 276
7.6 放松的存储一致性模型 279
7.6.1 不依赖于同步的放松模型 280
7.6.2 依赖同步的放松模型 285
7.7 推测执行中的存储序违反 289
7.7.1 乱序执行处理器中的保守存储模型 289
7.7.2 推测执行中的存储序违反 290
习题 292
第8章 片上多处理器 299
8.1 概述 299
8.2 CMP的基本原理 300
8.2.1 技术趋势 300
8.2.2 机遇 301
8.3 核内多线程 302
8.3.1 软件支持的多线程 302
8.3.2 硬件支持的多线程 303
8.3.3 块式(粗粒度)多线程 304
8.3.4 交错(细粒度)多线程 308
8.3.5 乱序执行处理器上的同时多线程 311
8.4 片上多处理器架构 314
8.4.1 同构CMP架构 315
8.4.2 基于异构处理器核的CMP系统 320
8.4.3 连体处理器核 322
8.5 编程模型 323
8.5.1 独立进程 324
8.5.2 显式线程并行 324
8.5.3 事务内存 326
8.5.4 线程级推测执行 333
8.5.5 帮助线程 337
8.5.6 通过冗余执行提高可靠性 338
习题 340
第9章 量化评估 343
9.1 概述 343
9.2 模拟器分类 344
9.2.1 用户级模拟器和全系统模拟器 344
9.2.2 功能模拟器和时钟精确模拟器 345
9.2.3 trace驱动模拟器、执行驱动模拟器和直接执行模拟器 347
9.3 模拟器的集成 350
9.3.1 功能优先模拟器的集成 350
9.3.2 时序优先模拟器的集成 351
9.4 多处理器模拟器 352
9.4.1 串行多处理器模拟器 352
9.4.2 并行多处理器模拟器 353
9.5 功耗和热量模拟 357
9.6 工作负载采样 359
9.6.1 基于采样的微架构模拟 360
9.6.2 SimPoint 361
9.7 工作负载特征刻画 361
9.7.1 理解性能瓶颈 362
9.7.2 合成基准测试程序 362
9.7.3 预测工作负载行为 362
习题 363