目录 1
第一章今天复杂的计算环境 1
●复杂、复杂、还是复杂 1
多重技术和协议 1
各种各样的厂商 2
各种各样的用户 2
无处不在的位置 3
日新月异的变化 3
更大的商业需求 3
令人望而生畏的工作环境 4
●所有权总成本(TCO)方面的几个问题 4
如何定义所有权总成本 4
所有权总成本的工业化评估 6
所有权总成本研究揭示的意义 6
导致所有权总成本居高不下的几个原因 8
一种典型的方案:办公室系统的选择 9
可用性已经成为所有权总成本最大的贡献者 10
●总结 10
第二章实现更高的可用性 12
●判定用户对可用性的需求 12
服务水平协议 12
帮助用户确立他们对可用性的需求 13
●可用性的级别及测定 14
高可用性级别(HIgh Availability Level) 14
不间断运行级别(Continuous Operations 1evel) 15
不间断可用性级别(Continuous Availability Level) 15
可用性指标的量化 16
可用性:用户为主的测量标准 17
端对端可用性的测量 19
●总结 20
●明确系统部件 22
第三章系统可用性计划的要点 22
●注重处理关键性部件 24
●可用性四大要素 25
●总结 25
第四章建立系统管理制度 26
●过程、数据、工具和组织 26
●个人计算机(PC)领域的系统管理 27
(或此类工作的不足) 27
●集中式:令IT企业离而复归 28
●熟悉需要管理的系统 28
●管理的基础:5个阶段 30
阶段1:树立目标 30
阶段2:制订计划 30
阶段4:质量测量 31
阶段5:跟踪控制 31
阶段3:贯彻执行 31
●确立系统管理制度 32
第五章加强服务水平的管理 33
●服务水平管理 33
过程要求 33
数据和测量要求 36
组织要求 37
工具要求 38
服务水平管理的益处 38
●问题处理管理 39
过程要求 39
数据和测量要求 43
组织要求 44
工具要求 45
问题处理管理的益处 46
●变更管理 47
过程要求 48
数据和测量要求 50
组织要求 51
工具要求 52
变更管理的益处 52
●安全管理 53
过程要求 53
数据和测量要求 57
组织要求 59
工具要求 61
安全管理的益处 62
●资产和配置管理 62
过程要求 63
数据和测量要求 65
组织要求 67
工具要求 68
●可用性管理 69
过程要求 70
数据和测量要求 72
组织要求 73
工具要求 74
可用性管理的益处 74
第六章计算环境:从集中式到分布式 75
●系统管理制度 75
●集中式计算环境 75
●分布式计算环境 76
●今天计算环境中的系统管理 77
确定合理的职能与控制 77
选择一种实施战略 78
政策化管理 81
例外性管理 81
●推行一种部署战略(Deployment Strategy) 81
性能数据标准化 82
分布式系统管理员所承担的责任 82
系统管理体系结构的清晰界定 82
过程专管所属 83
●总结 83
第七章满足多重可用性需要的技术 85
●冗余(Redundancy) 85
硬件冗余举例 85
软件冗余举例 87
环境冗余举例 88
影响成功的关键性因素 88
●关键资源的备份(Backup) 89
备份的方法 89
软件备份举例 91
硬件备份举例 91
IT操作备份举例 92
获得成功的关键因素 93
●集群 95
集群与冗余之比较 95
硬件和软件集群举例 96
IT操作集群举例 98
环境集群举例 98
获得成功的关键性因素 98
●容错(Fault ToIerence) 99
硬件容错举例 100
软件容错举例 100
环境容错举例 101
获得成功的关键性因素 101
●隔离或者分区 102
软件隔离举例 103
硬件隔离举例 103
隔离的其他优点 104
获得成功的关键性因素 105
●自动化操作 106
控制台和网络操作举例 108
工作负荷量(workload)管理举例 108
系统资源监测举例 109
问题处理管理应用程序 109
资源分布举例 110
备份和恢复举例 110
获得成功的关键性因素 111
●安全接入机制 112
安全接入的几个步骤 113
安全的类型 115
密码管理 119
获得成功的关键性因素 121
●标准化 122
硬件标准化举例 123
软件标准化举例 124
网络标准化举例 125
过程和程序标准化举例 125
名称标准化举例 126
获得成功的关键性因素 127
向标准化过渡 128
●总结 129
第八章系统可靠性之特殊技术 131
●使用可靠的部件 131
硬件部件可靠性实现最大化之技术 131
软件部件可靠性实现最大化之技术 133
人员相关类可靠性实现最大化之技术 136
环境相关类可靠性实现最大化之技术 137
供应商可靠性的几项指标 138
正确性(correctness) 139
●利用程序设计使故障率实现最小化 139
坚固性(robustness) 141
扩展性(extensibility) 142
复用性(reusability) 144
●采取措施应对独立于环境之外的干扰 145
使用发电机 145
使用独立的空调设备 145
使用消防装置 145
使用升高地板 146
安装设备轮锁 146
将计算机房设在二楼 146
●采取故障避免(也称免错)(fault avoidance)措施 147
分析问题的倾向及其统计结果 147
使用先进的硬件技术 147
●总结 148
使用软件维修工具 148
第九章系统可恢复性之特殊技术 149
●故障识别自动化技术 149
奇偶校验检查存储器 149
错误检查和校正(ECC)存储器 150
数据确认例行程序(data validation routine) 150
●快速恢复技术 151
●最低限度使用缺乏稳定性的存储媒体 151
对中央存储器进行定期的数据更新 151
自动文件保存特性 152
●总结 152
第十章系统可维修性之特殊技术 153
●联机系统的重新定义 153
添加或者拆除输入/输出(I/O)设备 153
使用标准化通用术语 154
●出错信息可掌握技术 154
可选性子系统断电 154
确认或者拒绝变更 154
采纳普遍的应用软件已使用的术语 155
提供发生的问题、原因和影响以及如何 155
进行处理的信息 155
提供上下文相关性(context-sensitive)帮助 156
提供选项以便更加详细地查看更多的 156
误差信息 156
在错误被清除后,继续提供误差信息的 156
可用性 156
●完善文件资料技术 157
手头要有一本《操作手册》 157
编写关于基本问题隔离和恢复的指南手册 158
提供系统配置图表 158
实现资源标签加注 158
(fixes and patches) 159
●安装最新的修改和补丁程序 159
提供一个技术图书馆 159
●总结 160
第十一章系统可管理性之特殊技术 161
●使用可管理的系统部件 161
简单网络管理协议(SNMP) 163
公共管理信息协议(CMIP) 164
桌式管理界面(DMI) 164
公共信息管理格式(CIM) 165
联线管理(WfM) 165
●管理应用程序 166
系统管理问题(Sytems Management lssus) 167
自动化的系统管理能力 168
系统管理应用程序和工作系统(Framework) 168
基本的数值分析技术 171
管理原理 171
信息系统的商业价值 171
●加强IT人员的系统管理制度教育 171
●总结 172
第十二章总结性论述 173
●系统管理制度的意义 173
●首先从何处人手 174
●故障停机分析 175
●确定故障的单点(single point) 176
●现有条件下的挖潜 176
●推荐一项实用策略 177
●总结 177
附录A 部分选用产品的可用性特征 179
●可选用操作系统之可用性特征 179
美国Novell公司推出的NetWare操作系统的可用性特征 179
可用性特征 183
美国Sun公司推出的Solaris 8操作系统的 183
IBM公司推出的AIX操作系统的可用性特征 186
美国微软公司推出的Windows2000服务器及专业版之可用性特征 188
IBM公司推出的OS/400操作系统之可用性 195
特征 195
●可选用硬件部件之可用性特征 196
美国IBM公司推出的S/390综合服务器之 196
可用性特征 196
美国IBM公司推出的AS/400中等系统之 198
可用性特征 198
美国IBM公司推出的RS/6000之可用性特征 202
康柏公司推出的Proliant服务器之可用性特征 204
●可选用软件部件之可用性特征 207
美国Oracle(甲骨文)公司推出的Oracle8i数据库之可用性特征 207
附录主要译名中英文对照表 209