5.1.1 合适人选 5 1
目录作者简介编者按Gary Bloom致词Greg Reyes致词David Thiel的历史序言第一篇信息服务,灾难和灾难恢复第1章有弹性的企业 2
1.1纽约交易所 2
1.2.1从灾难中恢复 4
1.2为纽约交易所构建灾难恢复计划 4
1.2.2 教训 5
1.2.3规划未来的可恢复性 5
1.2.4业务连续性计划 6
1.2.5新产品,新责任 7
1.2.6成本制约 7
1.3千年虫问题(Y2K)准备 7
1.3.1 人为因素 8
1.3.2恢复站点的交易 8
1.3.3千年虫问题之后 9
1.4 9.11事件 10
1.4.1 恢复开始 10
1.4.2恢复中的障碍 11
1.4.4熟悉新场地 12
1.4.3恢复在继续 12
1.4.5交易恢复 13
1.5交易中的混乱 13
1.5.1 9.11之后 14
1.5.2小结 15
1.5.3后续章节 15
第2章 灾难和灾难恢复计划 17
2.1 根据影响定义灾难 17
2.1.1 范围 17
2.1.2持续时间 17
2.1.3发生时间 18
2.1.4灾难对信息服务的影响 18
2.2灾难影响分析 18
2.2.1恢复的优先级 19
2.2.4相互关系 20
2.2.2灾难影响的类型 20
2.2.3时间范围 20
2.3灾难分类 21
2.3.1企业和环境灾难 22
2.3.2企业和站点灾难 22
2.4灾难影响的改变因素 23
2.5准备工作和恢复计划 24
2.5.1全面灾难恢复计划 24
2.5.2特定灾难恢复计划 24
2.5.3混合恢复计划 25
3.2.1灾难事件管理的目标 26
第3章管理灾难 26
3.1危机中的沟通 26
3.2灾难事件管理 26
3.2.2灾难事件管理文化 27
3.2.3可靠灾难事件管理程序的特征 27
3.3灾难事件管理程序的工作方式 28
3.3.1告警和影响评估 . 28
3.3.2通告 28
3.3.3宣告 29
3.4灾难恢复的最佳范例 30
3.4.1 团队组建 30
3.4.2优先级的确定 31
3.4.3沟通交流 31
3.4.5宣告灾难结束 34
3.4.4恢复过程中的障碍 34
3.5灾难事件管理的工具和技巧 35
3.5.1 会议管理 35
3.5.2事后总结 37
3.5.3通讯机制 38
3.5.4呼叫树 39
第4章灾难恢复站点 40
4.1灾难恢复站点的选择 40
4.1.1地理位置 40
4.1.2设施 41
4.1.3公用设施 42
4.2.1 降低高可用性系统的成本 43
4.1.5恢复站点的服务 43
4.2支付费用:恢复站点的其他用途 43
4.1.4安全与保安 43
4.2.2最小化灾难恢复站点成本 45
4.2.3信息服务恢复自动化 46
4.3恢复服务提供商 46
4.3.1成本降低的因素 46
4.3.2其他恢复服务 47
4.3.3恢复服务提供商通常不提供的服务 48
4.3.4对恢复服务提供商的评估 49
第5章人的因素 51
5.1 人员配置、培训和支持灾难恢复团队 51
5.1.3支持恢复团队 52
5.1.2 熟能生巧 52
5.2.1 灾难恢复指令系统 53
5.2 管理结构 53
5.2.2 企业管理人员的角色 54
5.3灾难影响人的方式 54
5.3.1个人及其家庭的需求 55
5.3.2处理灾难恢复人员缺失 55
5.3.3 应对信心不足 56
5.3.4应对和减小恢复团队的压力 56
5.3.5灾难中的伤亡 57
5.4让员工回到工作岗位 58
5.4.1 说服员工在灾难发生后进行工作 58
5.5人力是企业最重要的资产 58
6.2四种类型的测试 60
第6章测试灾难恢复计划 60
6.1测试保障一切 60
6.3准备恢复测试 61
6.3.1 恢复测试计划需要考虑的事项 62
6.4执行恢复测试 62
6.5恢复测试之后 63
第二篇用于灾难恢复的信息技术第7章信息服务的可用性 65
7.1 可用性 65
7.1.1 可用性的范围 66
7.2高可用性 66
7.2.1高可用性:选择性定义 67
7.2.2高可用性系统的设计参数 68
7.3实现计算机系统的高可用性 69
7.3.2主动组件和被动组件 70
7.3.1设计高可用计算机系统 70
7.3.3使冗余组件发挥作用 71
7.3.4当然还有 72
7.4部件故障和宕机 72
7.5宕机的时间 74
7.5.1恢复时间目标 74
7.5.2恢复点 75
7.5.3降级运行时间 77
7.5.4计划内停机 78
7.5.5什么时间出现什么类型停机 78
7.6宕机时间:举例 79
7.6.1 单张磁盘故障举例 79
7.6.2数据中心丢失举例 80
7.6.3 结论 83
7.7可用性指标 83
7.8可用性几个九的神话 85
第8章备份和灾难恢复 88
8.1保护企业数据 88
8.1.1 数据保护的精髓 88
8.2备份:数据保护的基础 89
8.2.1备份的目的 89
8.2.2企业备份中的企业 89
8.2.3企业备份的复杂性 89
8.2.4备份看似简单 90
8.2.5恢复:企业备份的原因 91
8.3企业备份结构的组件 91
8.3.1 根据企业需求扩展备份体系机构 92
8.4.1什么数据需要备份 94
8.4.2何时备份 94
8.4企业备份策略 94
8.4.3将数据备份到何处 95
8.4.4备份策略 95
8.5增量备份 95
8.5.1 全备份和增量备份 95
8.5.2增量备份的影响 96
8.5.3增量备份的不同类型 97
8.6数据库备份 99
8.6.1快照和数据库备份 99
8.6.2块级增量备份 100
8.7存档 101
8.8.1 多路备份(Multiplexed Backup) 102
8.8备份管理器性能攻略 102
8.8.2并行备份(Parallel Backup) 103
8.8.3快闪备份(Flash Backup) 103
8.9备份管理器的性能 104
8.10最小化备份窗口技术 105
8.10.1 “热”备份 105
8.10.2减小数据备份影响的其他技术 105
8.11 备份的最佳实践 105
8.11.1优化恢复时间 107
8.12有关备份的结束语 108
第9章分级存储管理和灾难恢复 109
9.1 减小备份和恢复窗口,加快灾难恢复 109
9.2分级存储管理 109
9.2.2分级存储管理的操作方式 110
9.2.1存储分级 110
9.2.3 分级存储管理和文件访问性能 111
9.2.4在线数据“活跃性” 111
9.2.5分级存储管理的好处 112
9.3分级存储管理技术的操作方式 114
9.3.1 分级存储管理策略 115
9.3.2分级存储管理优化 116
9.3.3分级存储管理的实施特征 117
9.4利用备份和分级存储管理的灾难恢复 118
9.5确定分级存储管理对数据中心的影响 118
9.5.1 采用分级存储管理增强灾难可恢复性的考虑因素 119
9.5.2长期数据存储 121
9.6决定采用分级存储管理 122
10.1.1数据的安全性、完整性及保存 123
10.1可更换介质的存储设备 123
第10章保护离线数据的硬件 123
10.2自动化磁带库 124
10.2.1 自动化磁带库的分类 124
10.3 自动化磁带库的特点 124
10.3.1 介质导入/导出 124
10.3.2条码阅读器和清单管理 125
10.4正确地选择磁带库 125
第11章保护在线数据 127
11.1 保护在线数据 127
11.1.1 保护数据免遭物理毁坏 128
11.2在线数据保护技术 129
11.3数据复制 129
11.3.1 为什么不镜像? 129
11.3.3 要复制什么? 130
11.3.2历史回顾 130
11.3.4复制与灾难恢复 131
11.3.5 复制选择 132
11.4灾难和在线数据保护 133
11.4.1突发性灾难 134
11.5复制的技术要求 134
11.5.1写排序 135
11.5.2一致性卷组 135
11.6复制与数据现时性 136
11.7数据复制执行 137
11.7.1基于基础设施的复制 138
11.8复制开始 140
11.9仍要重新定位的部分 141
11.10选择在线数据保护策略 141
11.11限制 142
11.10.1需求 142
11.11.1 保护成本 143
11.11.2选择指南 143
11.12总结 144
第12章存储网络与灾难恢复 145
12.1存储网络:数据访问的基础设施 145
12.1.1 存储互连 145
12.1.2存储网络互连 147
12.2数据块和文件访问 149
12.2.1 光纤信道 149
12.3主机总线适配器和存储设备 150
12.3.1 线缆和连接器 151
12.3.2基础设施 151
12.4.1存储网络拓扑结构 153
12.4设计弹性存储网络 153
12.4.2 正扇形结构和倒扇形结构 157
12.4.3存储网络设计标准 158
12.5 SAN性能 159
12.5.1位置和本地性对弹性的影响 159
12.6分区和SAN安全 160
12.7异构存储网络 161
12.7.1 SAN互操作性的发展 162
12.7.2 SAN管理 162
12.7.3巩固存储网络,加快恢复 162
12.8存储网络应用 163
12.8.1 备份 163
12.8.2高可用性集群和弹性系统 163
12.9.1光纤信道连接距离超过10公里 164
12.9广域存储网络 164
12.9.2 DWDM城域光纤网络 165
12.10管理存储网络 165
12.11存储网络技术的最新发展成果 166
12.11.1光纤信道技术的改进 166
12.11.2 InfiniBand 166
12.11.3 iSCSI(TCP/IP上的块存储) 167
12.11.4 FCIP 167
12.11.5 iFCP 168
12.12存储网络的使用技巧和最佳方法 169
12.12.1 设计指南 169
12.12.2可用性指南 169
12.12.3功能和性能指南 169
12.12.4操作指南 170
13.1文件系统的本质 171
第13章数据文件的灾难防护 171
13.1.1 文件系统具有哪些功能 172
1 3.1.2文件系统数据的组织 172
13.1.3文件系统数据分配 173
13.1.4文件系统的运行方式 174
13.1.5文件系统和数据完整性 174
13.2文件系统发生故障和恢复的方式 175
13.2.1 文件系统数据完整性的挑战 175
13.2.2保持文件系统元数据完整性的技术 175
13.2.3 文件系统恢复技术 176
13.2.4缓存:元数据完整性的另一个头痛问题 177
13.2.5 日志:加快恢复和提高完整性 177
13.3.1 在线碎片整理 178
13.3在线管理——提高可用性 178
13.4本章总结 181
第14章数据库的灾难防护 182
14.1 数据库 182
14.1.1 数据库管理系统 182
14.1.2数据库数据模式 183
14.1.3关系模式 183
14.2数据库灾难 183
14.2.1人为和应用程序错误 184
14.2.2系统和环境故障 184
14.3数据库恢复 184
14.3.1 数据库事务处理 185
14.3.2数据库崩溃恢复 186
14.3.5 存档日志:长时间数据库恢复 187
14.3.3数据库管理系统崩溃恢复:示例 187
14.3.4文件系统缓存和数据库恢复 187
14.4数据库备份技术 189
14.4.1 离线数据备份 189
14.4.2在线数据库备份 189
14.4.3数据库管理器的静止状态 190
14.4.4数据库增量备份 192
14.4.5逻辑增量备份 192
14.4.6物理增量备份 192
14.5从备份中恢复数据库 193
14.6检验数据库备份 193
14.6.1管理数据库日志 194
14.7存储冗余和灾难防护 194
14.8.1共享数据集群 195
14.8系统冗余和灾难防护 195
14.8.2主动-被动式数据库集群配置建议 196
14.8.3主动-主动式数据库集群 197
14.9数据库复制 198
14.9.1用日志传输进行复制 198
14.9.2数据库管理器复制 199
14.9.3数据库的存储复制 199
14.9.4复制延时 201
14.9.5全域集群管理 201
14.10总结:数据库可恢复性分级 201
第15章应用程序灾难防护 203
15.1 可用应用程序与可用数据 203
15.1.1服务水平协议 204
15.2.1基本可恢复性 205
15.2提高应用可用性 205
15.2.2恢复过程中的可恢复性 206
15.2.3用集群保护系统 207
15.2.4故障切换过程客户机看到的情形 209
15.3威胁评估 209
15.4远程故障切换的考虑因素 210
15.4.1 本地与远程故障切换比较 211
15.4.2管理远程故障切换 212
第16章弹性企业网络 213
16.1存储与消息传送网路 213
16.1.1全球网络性能 214
16.1.2企业网络技术 214
16.1.3 将企业网络用于存储通信 214
16.1.4远距离存储网络 215
16.2 广域通信 216
16.2.1光纤互连 219
16.2.2暗光纤 220
16.3 DWDM 221
16.3.1广域通信光纤 222
16.4 广域配置和性能问题 223
16.4.1 衰减 223
16.4.2 DWDM和城域网 224
16.4.3 DWDM的工作原理 224
16.4.4 SONET 225
16.4.5信道扩展 227
16.4.6扩展存储网络 227
16.4.7距离与冗余性 227
16.5广域通信示例 228
16.4.9安全 228
16.4.8客户机访问问题 228
16.6弹性网络的设计原则 230
第三篇灾难恢复案例研究第17章案例研究 233
17.1一家大型地区医院遭遇洪水 233
17.1.1 医院 234
17.1.2数据中心 234
17.1.3恢复运行 234
17.1.4关于恢复 235
17.1.5是什么出了错? 236
17.1.6灾难过后 236
17.1.7教训概要 237
17.2金融公司发生火灾 238
17.2.1灾难恢复计划 238
17.2.2恢复 239
17.2.3灾难过后 240
17.2.4吸取的教训 240
17.3飓风袭击一家小公司 241
17.4一家医学院和医院遭遇洪水 241
17.4.1洪水 242
17.4.2历史回顾 242
17.4.3 预先规划 242
17.4.4发生暴风雨的当天 243
17.4.5暴风雨造成的破坏 244
17.4.6做出的反应 245
17.4.7恢复 246
17.4.8一位医生对这场灾难的看法 247
17.4.9新的恢复计划 248
17.4.10行为方式的变化 248
17.4.11 吸取的其它教训 249
第四篇使企业具有弹性第18章企业弹性 251
18.1企业、灾难和弹性 251
18.1.1决定企业弹性的主要因素 251
18.1.2弹性的价值 252
18.2 单性与效率 253
18.2.1企业效率 253
18.2.2企业弹性 254
18.3规划企业弹性 254
18.3.1分析一个企业 255
18.3.2威胁评估 255
18.3.3进一步探讨:功能的弹性 256
18.3.4企业弹性计划 256
18.4企业弹性技术 257
18.4.1复制资源 258
18.5恢复以外:有机企业 259
18.5.1最基本的弹性:生存 260
18.5.2i通过冗余获得弹性 260
18.5.3重要资源和其他 261
18.5.4外部“资源” 262
18.5.5数据是一种重要资源 262
18.6 通过单元式组织获得企业弹性 262
18.6.1单元式企业 263
18.6.2单元式企业的业务模式 263
18.7企业弹性的战术 265
18.7.1 了解企业的性质 265
18.7.2什么是“总部”? 266
18.7.3管理层授权 266
1 8.7.5功能分类 267
18.7.4单元式企业中的沟通 267
第19章对未来的三种展望 270
分布式信息服务的基础设施 271
19.1 引言 271
19.1.1 易用性和复杂性降低 271
19.2技术的融合、出现与成熟 272
19.2.1 技术与存储、I/O性能与容量 272
19.2.2管理工具与状态信息 272
19.3结论 273
重新考虑存储体系结构,实现灾难恢复 273
19.4 引言 273
19.5用户要求 274
19.6新兴存储技术 274
19.6.2小结 277
19.6.1存储行业其他趋势 277
SAN可以打消对业务持续性的担忧 278
19.7更灵活的存储基础设施 278
19.7.1 高可用性与容灾的可靠基础 279
19.7.2促进业务持续性的SAN应用 280
19.8提高业务持续性的战略解决方案 281
第20章对弹性存储体系结构的再思考 282
20.1 引言 282
20.2业务现实 282
20.3 当今的体系结构与信念 283
20.3.1复杂性的本质 284
20.4扩展与增长 284
20.5复杂性灾难 285
20.5.1 复杂性的影响:增加管理成本 287
20.5.2 影响N、K和D的存储元素和操作 288
20.5.4复杂性灾难的传统对策 289
20.5.3变量的变化速率 289
20.5.5识别和减少复杂性灾难 290
20.5.6用NKD方法减少复杂性灾难 291
20.6每个人都会犯错误,管理员也不例外 291
20.7分层与虚拟化 292
20.8采用无尺度体系结构来管理复杂性 293
20.9可演化的存储系统 294
20.10普遍化副本 295
20.11技术中断 295
20.11.1摩尔定律的充足性 295
20.11.2硬盘的充足性 296
20.11.3无磁带备份 297
20.13从下到上地查看数据弹性 298
20.12定义“超高弹性” 298
20.14各大学的当前研究方向 299
20.14.1 PASIS 300
20.14.2面向恢复的计算 300
20.15行业的发展方向 301
20.15.1 Oracle“坚不可摧”的系统体系结构 301
20.15.2IBM的自主计算环境 302
20.15.3惠普的全球计算与存储 302
20.16结论——减少复杂性灾难 303
附 录附录一成为认证业务持续性专业人员 305
附录二信息服务灾难恢复技术来源 307
附录三存储介质的成本与容量 310
术语表 314