《现代处理器设计 超标量处理器基础》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:(美)John Paul Shen,(美)Mikko H.Lipasti著;张承义等译
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2004
  • ISBN:7505398067
  • 页数:297 页
图书介绍:本书是一部有关超标量处理器设计的教科书,是卡内基梅隆大学超标量处理器设计课程的教材。本书的特点是,突出关键的概念和基本的原理,隐藏复杂的技术细节;论述深入浅出,易于理解;内容全面并且新颖。本书内容涵盖了指令集、流水线等处理器设计的基本概念和超标量的结构以及主要的技术途径;同时提供了超标量处理器的实例,并对当前的超标量处理器产品进行了全面的分析和总结;本书还包含了一些高级讨论专题,并介绍了一些最新的超标量技术。

目录 1

第1章 处理器设计 1

1.1 微处理器的发展史 1

1.2 指令集处理器设计 2

1.2.1 数字系统设计 2

1.2.2 体系结构、逻辑实现和物理实现 3

1.2.3 指令集体系结构 4

1.2.4 动态静态界面 5

1.3 处理器性能法则 6

1.3.1 处理器性能公式 7

1.3.2 处理器性能优化 7

1.3.3 性能评价方法 8

1.4 指令级并行处理 10

1.4.1 从标量到超标量 10

1.4.2 指令级并行的极限 15

1.4.3 指令级并行的机器 17

1.5 小结 21

1.6 习题 22

第2章 流水线处理器 24

2.1 流水线基础 24

2.1.1 流水线设计 24

2.1.2 算术流水线的实例 27

2.1.3 流水线理想假设 30

2.1.4 指令流水线 32

2.2.1 保持流水段均衡 34

2.2 流水线处理器设计 34

2.2.2 统一指令类型 38

2.2.3 减少流水线停顿 44

2.2.4 产品化的流水线处理器 54

2.3 深流水线处理器 59

2.4 小结 61

2.5 习题 61

第3章 超标量结构 63

3.1 标量流水线的局限性 63

3.1.1 标量流水线吞吐率的上限 63

3.1.3 严格流水线导致的性能损失 64

3.1.2 低效的统一流水线 64

3.2 人标量流水线到超标量流水线 65

3.2.1 并行流水线 65

3.2.2 多配置流水线 67

32.3 动态流水线 69

3.3 超标量流水线综述 71

3.3.1 取指 72

3.3.2 指令译码 74

3.3.3 指令分派 76

3.3.4 指令执行 79

3.3.5 指令的完成和提交 81

3.4 小结 82

3.5 习题 83

第4章 超标量技术 85

4.1 指令流技术 85

4.1.1 程序控制流和控制相关 85

4.1.2 分支造成的性能损失 86

4.1.3 分支预测技术 88

4.1.4 分支预测失败的恢复 91

4.1.5 先进的分支预测技术 93

4.1.6 其他指令流技术 96

4.2 寄存器数据流技术 97

4.2.1 寄存器重用和假数据相关 97

4.2.2 寄存器重命名技术 98

4.2.3 数据相关和数据流极限 101

4.2.4 经典的Tomasulo算法 102

4.2.5 动态执行内核 107

4.2.6 保留站和再定序缓冲 109

4.2.7 动态指令调度器 111

4.2.8 其他寄存器数据流技术 111

4.3 存储器数据流技术 112

4.3.1 存储器访问指令 113

4.3.2 存储器层次结构 114

4.3.3 存储器访问的排序 120

4.3.4 载入旁路和载入定向 121

4.3.5 其他存储器数据流技术 124

4.4 小结 127

4.5 习题 128

第5章 PowerPC 620 136

5.1 简介 136

5.2 实验框架 138

5.3 取指 139

5.3.1 分支预测 140

5.3.2 取指和推测 141

5.4 指令分派 142

5.4.1 指令缓冲 142

5.4.2 分派停顿 142

5.4.3 分派效率 144

5.5.2 并行执行 145

5.5.1 发射停顿 145

5.5 指令执行 145

5.5.3 执行延迟 146

5.6 指令完成 146

5.6.1 完成并行度 146

5.6.2 cache的影响 147

5.7 结论和评价 148

5.8 IBM POWER3和POWER4 149

5.9 小结 151

5.10 习题 151

第6章 Intel P6微体系结构 153

6.1 简介 153

6.1.1 P6微体系结构基础 155

6.2 流水线 156

6.2.2 乱序执行的内核流水线 157

6.2.1 按序执行的前端流水线 157

6.2.3 指令提交流水线 158

6.3 按序执行的前端 159

6.3.1 指令缓存与ITLB 159

6.3.2 分支预测 161

6.3.3 指令译码器(ID) 163

6.3.4 寄存器别名表 165

6.3.5 分配器 170

6.4 乱序执行的内核 171

6.4.1 保留站 171

6.5.1 再定序缓冲 172

6.5 指令提交 172

6.6 存储子系统 175

6.6.1 存储器访问顺序 176

6.6.2 存储器load操作 176

6.6.3 基本存储器存储操作 177

6.6.4 延期存储器操作 177

6.6.5 页故障 177

6.7 小结 178

6.8 习题 178

第7章 超标量处理器概览 180

7.1 超标量微处理器的发展 180

7.1.1 单处理器并行的早期发展:IBM Stretch 180

7.1.2 第一个超标量设计:IBM高级计算机系统 182

7.1.3 指令级并行研究 186

7.1.4 DAE的副产品:第一个多指令译码的实现 186

7.1.5 IBM的Cheetah,Panther和America 187

7.1.6 分离的微体系结构 188

7.1.7 20世纪80年代其他的设计方案 188

7.1.8 超标量被广泛接受 189

7.2 对目前设计的分类 190

7.2.1 对RISC和CISC的翻新 190

7.2.2 Alpha:一种侧重于时钟周期的体系结构 192

7.2.3 POWER系列:侧重于增强指令的体系结构 192

7.3 处理器介绍 193

7.2.4 体系结构修订 193

7.3.1 Compaq/DEC Alpha 194

7.3.2 HP的PA-RISC 1.0版本 197

7.3.3 HP的PA RISC 2.0版本 200

7.3.4 Intel 1960 201

7.3.5 Intel IA32 203

7.3.6 MIPS 210

7.3.7 Motorola 68060/1993 213

7.3.8 Motorola 88 110/1991 214

7.3.9 IBM POWER 215

7.3.10 PowerPC 219

7.3.11 SPARC第8版 222

7.3.12 SPARC第9版本 224

7.3.13 其他超标量处理器 226

8.1 简介 235

第8章 高级寄存器数据流技术 235

8.2 值局部性和冗余执行 237

8.2.1 值局部性的缘由 237

8.2.2 量化值局部性 238

8.3 非预测的值局部性利用 239

8.3.1 记忆法 240

8.3.2 指令重用 241

8.3.3 基本块和trace重用 244

8.3.4 数据流区域重用 244

8.3.5 结论 244

8.4.2 值预测 245

8.4 带预测的值局部性利用 245

8.4.1 弱相关模型 245

8.4.3 值预测单元 246

8.4.4 使用预测值的推断执行 249

8.4.5 值预测的性能 255

8.4.6 结论 256

8.5 小结 257

8.6 习题 257

第9章 执行多线程 259

9.1 介绍 259

9.2 共享存储器线程的同步 261

9.3.1 完全共享存储器,单位延迟以及无竞争 263

9.3 多处理机系统介绍 263

9.3.2 写操作的瞬时传播 264

9.3.3 一致的共享存储器 264

9.3.4 实现cache一致性 266

9.3.5 多级cache、包含以及虚拟存储器 269

9.3.6 存储一致性 270

9.3.7 一致性存储器接口 273

9.3.8 结论 275

9.4 显式多线程处理器 275

9.4.1 单芯片多处理器 276

9.4.2 粒度多线程 278

9.4.3 粗粒度多线程 278

9.4.4 同时多线程 280

9.5 隐式多线程处理器 285

9.5.1 化解控制相关 285

9.5.2 寄存器数据相关化解 288

9.5.3 存储器数据相关化解 289

9.5.4 结论 291

9.6 执行相同的线程 291

9.6.1 错误发现 292

9.6.2 预取 293

9.6.3 分支化解 294

9.6.4 结论 294

9.7 小结 294

9.8 习题 295