目录 1
第一部分 可靠系统的设计理论 7
第一章 基本概念 7
1.1可靠性的重要性 7
1.2数字系统的层次 8
1.3系统寿命期的各个阶段 9
1.4容错计算的特性及其定义 10
1.4.1可用度 10
1.4.2可靠度 10
1.5制造阶段 11
1.5.1设计成熟性测试 11
1.5.2进料检验 12
1.5.3工艺成熟性测试 15
1.6运行阶段 16
1.7拥有费用 17
1.8模型系 18
1.9可设计的参量 19
参考文献 20
第二章 故障及其表现 21
2.1引言 21
2.2故障的表现 23
2.2.1物理缺陷 23
2.2.2逻辑级故障的类别 29
2.2.3系统级的抽象 29
2.3故障的分布 32
2.3.1概率复习 32
2.4样本数据与数学分布的拟合 35
2.4.1极大似然估计法 35
2.4.3线性回归分析 36
2.4.2韦伯参数的极大似然估计 36
2.4.4置信区间 37
2.4.5符合良度检验 37
2.5永久故障的分布:MIL-HDBK-217模型 40
2.5.1寿命期测试和现场数据 40
2.5.2永久失效数据的分析:估计分布及其参数 47
2.6自动失效率计算 52
2.7瞬时错误和系统错误的分布 53
2.7.1数据收集 53
2.7.2图形化数据分析 54
2.7.3参数的置信区间 61
2.7.4符合检验 61
2.8小结 61
参考文献 63
习题 63
第三章 可靠性和可用性技术StevenA.Elkind 64
3.1避错技术 68
3.1.1环境变化 68
3.1.2质量控制 71
3.1.3元件集成度 75
3.2故障检测技术 77
3.2.1二模冗余 78
3.2.2检错码 82
3.2.3自校验、故障保险和失效-安全逻辑 101
3.2.4监视计时器和超时 107
3.2.5相容性检验和权力检验 108
3.3屏蔽冗余 110
3.3.1N模表决冗余 110
3.3.2纠错码 118
3.3.3屏蔽逻辑 128
3.4动态冗余 135
3.4.1可重组的二模冗余 136
3.4.2可重组的NMR 140
3.4.3后援备件 147
3.4.4缓慢降级 151
3.4.5重组 153
3.4.6恢复 161
3.5小结 166
参考文献 166
习题 167
第四章 可维护性和测试技术 174
4.1生产阶段 175
4.1.1参数测试 175
4.1.2验收测试 177
4.1.3可测试性设计 182
4.2现场操作 186
习题 190
参考文献 190
第五章 评价标准StephenMcConneDanielP.Siewiorek 191
5.1评价标准概述 191
5.1.1硬件评价 191
5.1.2软件评价 196
5.2模型技术 201
5.2.1组合模型 201
5.2.2马尔柯夫模型 235
5.2.3系统可用性模型 264
5.2.4建立冗余影响性能的模型 271
5.3系统设计的综合分析 275
5.3.1设计实例:PDP-8/e 276
5.3.2实例分析 281
5.4小结 285
习题 286
参考文献 286
6.1引言和基本概念 295
6.1.1定义 295
第六章 财经考虑 295
6.1.2维护费用 296
6.1.3用户拥有费用 298
6.2现场服务概观和费用模型 300
6.2.1维护费用模型 300
6.2.2寿命期费用LC2.(Life-CycleCost)模型 303
6.2.3具有综合数据成分的LCC模型 307
6.3结论 311
参考文献 311
习题 311
A.1基本定义 313
A.1.1冗余 313
附录A 差错控制的编码技术D.T.TangR.T.Chien 313
A.1.2源码 314
A.1.3分组码 314
A.1.4二元码 314
A.2数字数据信道中的差错 314
A.2.1传送与存储 314
A.2.2源编码 314
A.2.3调制与解调 315
A.3差错源 315
A.3.1差错统计 315
A.3.2存储 316
A.3.3信道模型 316
A.4编码中的数学结构 316
A.4.1线性分离码 317
A.5.1差错症候 318
A.5对编码与译码的一般要求 318
A4.2多项式循环码 318
A.5.2条件极大似然译码 319
A.5.3极大似然译码 319
A.5.4最小距离译码 319
A.6线性开关线路与移位寄存器 320
A.6.1使用延迟算子D的多项式 320
A.7编码器和译码器 323
A.8差错控制码的功能分类 325
A.9编码策略 325
A.9.1差错检测 326
A.9.2部分纠正 327
A.9.3抹除 327
A.10.1数据通信 328
A.10某些差错控制的应用 328
A.9.5顺序译码法 328
A.9.4自适应编码方案 328
A.10.2数据存储器 329
A.10.3辅助存储器 329
A.10.4数字多分支型差错控制 330
A.11结束语 330
附录1 线性码的结构 331
附录2 多项式码的结构 332
附录3 求生成多项式的方法 333
附录4 特殊的差错控制码 337
附录5 循环冗余校验 343
参考文献 344
附录B 算术差错码在数字系统设计中应用的代价和效果的研究AlgirdasAvi?ienis 345
B.1码评价方法论 345
B.1.1问题的范围 345
B.1.3效果准则 346
B.1.2代价准则 346
B.1.4逻辑故障分类 348
B.2二进制算术处理器中的故障后果 349
B.2.1并行算术运算中的基本故障 349
B.2.2二进制处理器中的重复使用故障 351
B.3低代价以2为基数的算术码 352
B.3.1算术差错码的实现 352
B.3.2低代价校验算法 353
B.3.3故障效果:一次使用故障 354
B.3.4故障效果:确定性重复使用故障 354
B.3.5故障效果:非确定性重复使用故障 355
B.3.6剩余码中的重复使用故障 356
B.4多重算术差错码 357
B.4.1多重低代价码 357
B.4.2多重码的“混合代价”形式 359
参考文献 360
附录C 可测试逻辑设计理论和实践的最新进展R.G.BennettsR.V.Scott…… 361
C.1引言 361
C.2理论方面的进展 362
C.2.1组合线路 362
C.2.2.时序线路 370
2.2.3重复阵列 377
C.3可测试逻辑设计的实践情况 378
结论 382
参考文献 383
附录D MIL-HDBK-217B可靠性模型梗概 384
参考文献 387
附录E MIL-HDBK-217C可靠性模型梗概 388
E.1217C模型 388
E.2217C1号公报模型 389
参考文献 392
第二部分 可靠系统的设计实践 395
C.vmp 395
商用计算机 395
DEC 395
IBM 395
目录 395
UNIVAC 397
高可用性系统 399
Tandem系列 399
ESS处理器 400
Pluribus 404
宇宙飞船和航空电子系统 405
FTMP和SIFT 409
参考文献 410
7.2系统结构 411
7.2.1实际系统的构成 411
第七章 C.vmp表决多处理器 411
7.1设计目标 411
7.2.2表决器的工作方式 413
7.2.3外部设备 415
7.3处理器同步问题 415
7.3.1动态表决控制 415
7.3.2总线控制信号的同步 416
7.3.3系统时钟 418
7.4性能量度 419
7.4.1处理器执行/存储器读取时间 419
7.4.2磁盘访问时间 421
7.5运行经验 422
7.5.1运行历史 422
7.5.2C.vmp系统可靠性 423
7.5.3联机维护 424
参考文献 425
第八章 VAX-11系列(VAX-11/780和VAX-11/750)中的RAMP 426
8.1VAX结构 426
8.2原始的VAX-11的实现 431
8.3VAX-11/780的实现 434
8.3.1内部处理机寄存器 436
8.3.2ID总线寄存器 440
8.3.3主存寄存器 442
8.3.4控制台子系统 445
8.3.5微诊断和宏诊断 450
8.4VAX-11/750的实现 452
8.4.1设计改进 452
8.4.2RAMP特性 458
8.4.3处理机寄存器 460
8.4.4主存寄存器 462
8.4.5诊断和修复 464
8.5小结 466
参考文献 468
第九章 系统/360-系统/370通过程序设计实现恢复 469
9.1引言 469
9.2恢复管理的目标 469
9.2.1功能恢复 470
9.2.2系统恢复 470
9.2.3系统支持的再启动 471
9.2.4系统修复 471
9.3用户所涉及的问题 472
9.4机构的简要描述 472
9.51/O设备/部件恢复机构 473
9.5.1IBM标准错误恢复过程 473
9.6通道检验管理机构(CCH) 474
9.5.3联机测试系统 474
9.5.2可选的用户书写子程序 474
9.7I/O恢复管理支持机构 475
9.7.1APR 476
9.7.2DDR 476
9.8CPU/处理机存储器恢复机构 477
9.8.1机器检验管理机构(MCH) 477
9.8.2系统环境记录(SER0和SER1) 478
9.9系统相关的恢复机构 478
9.9.1系统再启动 478
9.10.1环境记录编辑和打印实用程序 479
9.10错误记录恢复机构 479
9.9.2检测点/再启动 479
9.10.2系统环境记录、编辑和打印程序 480
9.11RMS/65与操作系统的关系 480
9.12系统/370的几点考虑 480
9.13结束语 481
参考文献 481
第十章 SPERRYUNIVAC1100/60的可用性、可靠性和可维修性 482
摘要 482
10.1引言 482
10.2.21100/60中的ARM——通用方法 483
10.21100/60的ARM基本原理 483
10.2.1以前的SPERRYUNIVAC1100系列中的ARM 483
10.3ARM的具体实现 484
10.3.1系统特征 484
10.3.2故障检测 485
10.3.3错误纠正 486
10.3.4故障隔离 487
10.3.5错误恢复 487
10.3.6故障注入 489
10.3.7维修 490
10.5小结 491
10.4ARM的评价 491
参考文献 492
第十一章 容错计算系统 493
摘要 493
11.1引言 493
11.2系统结构 494
11.2.1系统组装 496
11.2.2互连 497
11.3处理器模块组织 497
11.3.1CPU 498
11.3.2主存储器 499
11.3.3动态总线 501
11.3.4输入/输出通道 503
11.4输入/输出系统结构 504
11.4.1双端口控制器 505
11.4.2控制器缓冲器的几点考虑 506
11.4.3磁盘控制器的几点考虑 507
11.4.4NonstopI/O系统设计思想 508
11.5电源、组装、联机维修 508
11.5.1进一步组装和联机维修的考虑 509
11.6小结 509
背景 510
系统概述 510
一个“不停机”的运行系统 510
摘要 510
系统设计目标 511
统一的硬件/软件设计*511++操作系统设计目标 511
操作系统结构 512
进程 512
消息 513
进程对 513
初始化和处理器重新加载 515
系统进程 515
应用进程接口 515
操作系统的错误检测 516
参考文献 517
第十二章 局域ESS处理器的容错设计 518
摘要 518
12.1引言 518
12.2系统停机时间的分配和原因 518
12.2.4例行操作错误 519
12.2.3恢复机制的缺陷 519
12.2.2软件缺陷 519
12.2.1硬件可靠性 519
1.2.3双重结构 520
1.2.4故障模拟技术 522
12.5第一代ESS处理器 523
12.5.1No.1ESS处理器 523
12.5.2No.1ESS的运行结果 525
12.5.3No.2ESS处理器 526
12.6第二代ESS处理器 528
12.6.1No.1A处理器 528
12.7No.3A处理器的维修设计 531
12.7.1通用系统的描述 532
12.7.2通用处理器的描述 533
12.7.3检测技术 534
12.7.4恢复技术 542
12.7.5诊断硬件 545
12.7.6修复 547
12.7.7硬件实现 548
12.8小结 549
参考文献 550
摘要 551
13.1引言 551
第十三章 Pluribus——一个实用的容错多处理器 551
13.2Pluribus体系结构 552
13.2.1主要的设计决策 552
13.2.2系统概述 553
13.2.3实际系统的结构 555
13.2.4冗余技术 560
13.3Pluribus操作系统 560
13.3.1操作系统的一般职能 561
13.3.2STAGE系统的分层结构 561
13.3.3建立通信 562
13.3.4协同机构 563
13.3.5与应用相关的检验 564
13.4应用可靠性的一个例子 564
13.5Pluribus容错方法的优点 565
13.6近期的现场经验 566
13.6.1处理器总线上的失效 567
13.6.2公用存储器的错误及丢失 567
13.6.5内部软件错误 568
13.6.4关键硬件的丢失 568
13.6.6人为的病态条件 568
13.6.3I/O设备的丢失 568
13.7Pluribus系统可维修性 569
13.7.1报告机构 569
13.7.2远程诊断与修复 570
13.7.3划分 570
13.7.4重新加载和下行线加载 571
13.7.5维护经验 571
13.8其他应用及扩充 572
13.8.1信息系统 572
13.8.2实时信号处理 572
13.8.3通用分时系统 572
13.8.4预定系统 573
13.8.5过程控制 573
参考文献 573
第十四章 自检测和自修复计算机STAR——容错计算机设计理论与实践的一个研究报告 574
摘要 574
14.1引言:研究过程及基本原理 574
14.2STAR计算机的体系结构 576
14.2.1容错的方法 576
14.2.2硬件系统的组织 576
14.2.3标准操作 577
14.2.4计算机字:格式和编码 578
14.2.5控制错误的检测 579
14.2.6功能单元的性质 580
14.2.7检测和修复处理器(TARP)及恢复方法 581
14.3可靠性分析的比较 582
14.4STAR计算机的软件系统 585
14.5STAR技术向外围系统的扩展 586
14.6TOPS控制计算机的设计 587
14.7现行研究 587
参考文献 588
15.1.1使命 589
15.1引言 589
15.1.2飞船 589
摘要 589
第十五章 “旅行者”飞船中的故障自动保护 589
15.2达到的可靠性 590
15.3故障自动保护设计 591
15.3.1要求 591
15.3.3要求的软件实现 592
15.4命令计算机子系统的功能描述 592
15.3.2要求的硬件实现 592
15.4.1CCS例行程序结构 593
15.5故障保护软件 594
15.5.1CCS中的故障保护 594
15.6设计验证 603
15.7.1失效和降级 604
15.7.2环境因素 604
15.7飞行中的经验 604
15.8结论和建议 605
参考文献 605
15.7.3序列错误 605
16.1引言 606
摘要 606
16.1.1动机 606
第十六章 SIFT:飞行控制容错计算机的设计与分析 606
16.1.2背景 607
16.2SIFT的容错概念 608
16.2.1系统概述 608
16.2.2故障隔离 609
16.2.3故障屏蔽 610
16.2.4调度 610
16.2.5处理器同步 611
16.2.6可靠性预测 613
16.3SIFT硬件 614
16.4.1应用软件 618
16.4.2SIFT执行软件 618
16.4软件系统 618
16.4.3故障检测 622
16.4.4模拟器 623
16.5.1概念 624
16.5.2模型 624
16.5正确性证明 624
16.5.3可靠性模型 625
16.5.4分配模型 625
16.5.5今后的工作 628
16.6结论 628
附录:SPECIAL说明的实例 629
参考文献 630
摘要 631
17.1引言 631
第十七章 FTMP——一个用于飞机的高可靠容错多处理器 631
17.2FIMP的理论 633
17.1.2FTMP方法的基本原理 633
17.2.1标定组织 633
17.1.1背景与由来 633
17.2.2冗余组织 635
17.2.3同步 639
17.2.4失灵管理 640
17.3FTMP的一个工程样机的描述 643
17.3.1冗余总线结构 647
17.3.2LRU与总线系统的对接 647
17.3.3系统控制单元 648
17.3.4主要故障限制区域 649
17.4FTMP的生存与分配概率模型 652
17.4.1生存概率模型 652
17.3.5主电源 652
17.4.2间歇性故障的影响 656
17.4.3FTMP计算机的分配可靠性 659
17.5实验结果 660
17.5.1故障诊断能力 661
17.5.2软件经验 662
17.6结论 663
17.6.1FTMP设计的关键区域 663
17.6.2小结 664
参考文献 664
18.1高可靠性系统的设计方法论 665
18.1.1定义系统目标 665
第十八章 高可靠性系统的设计方法论——Intel432 665
18.1.2限制范围 666
18.1.3定义故障处理的层次 667
18.1.4定义重组和修复边界 668
18.1.5设计故障处理机构 669
18.1.6识别硬核 669
18.3.1定义系统目标 670
18.3Intel432的检测机构 670
18.3.2限制范围 670
18.2工艺的影响 670
18.3.3定义故障处理的层次 671
18.3.4定义重组和修复边界 671
18.3.5设计故障处理机构 673
18.3.6识别硬核 677
18.4Intel432错误隔离和报告机构 678
18.5小结 679
参考文献 679
参考文献 680
索引 707
12.6.2No.3A处理器 5301