当前位置:首页 > 工业技术
高可用性系统设计
高可用性系统设计

高可用性系统设计PDF电子书下载

工业技术

  • 电子书积分:14 积分如何计算积分?
  • 作 者:(美)Evan Marcus,(美)Hal Stern著;汪青青,卢祖英译
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2005
  • ISBN:730210865X
  • 页数:426 页
图书介绍:本书讲授的是如何设计具有最大可用性的系统。内容包括:备份—恢复—,SAB,NAS, 应用恢复、远程复制等技术。
《高可用性系统设计》目录

目录 1

第1章 介绍 1

1.1 为什么需要一本可用性的书 2

1.2 问题解决方法 2

1.3 不包括的内容 3

1.4 我们的任务 3

1.5 可用性指数 4

1.6 总结 5

1.7 本书的组织结构 5

1.8 要点 6

2.1 测量可用性 7

第2章 测量数据 7

2.1.1 “9”表示法 9

2.1.2 定义停机故障 11

2.1.3 引起停机故障的原因 11

2.1.4 可用性 12

2.1.5 平均数 14

2.1.6 可接受性 15

2.2 故障模式 16

2.2.1 硬件 16

2.2.2 环境和物理故障 17

2.2.3 网络故障 18

2.2.4 文件和打印服务器故障 18

2.2.5 数据库系统故障 19

2.2.6 网页和应用程序服务器故障 20

2.2.7 拒绝服务攻击 21

2.3 对测量的信心 22

2.3.1 可恢复性 22

2.3.2 Sigma(σ)和“9”表示法 23

2.4 要点 24

第3章 可用性的价值 25

3.1 高可用性的含义 25

3.2 停机故障损失 27

3.2.1 停机故障直接损失 27

3.2.2 停机故障的间接损失 28

3.3 可用性的价值 30

3.3.1 例子1:双节点群集配置 33

3.3.2 例子2:未知的停机损失 36

3.4 可用性变化区间 37

3.5 可用性指数图 39

3.6 停机过程 40

3.6.1 停机 41

3.6.2 数据丢失 42

3.6.3 降级模式 43

3.6.4 预定停机 44

3.7 要点 46

4.1.1 从内部着手 47

第4章 可用性政治策略 47

4.1 开始游说 47

4.1.2 然后走出去 48

4.1.3 开始行动 50

4.2 你的听众 53

4.2.1 获得听众 53

4.2.2 了解听众 53

4.3 表达信息 53

4.3.1 幻灯演示 54

4.3.2 报告 54

4.5 要点 55

4.4 传递信息之后 55

第5章 20条关键的高可用性设计原则 57

5.1 #20:切勿贪便宜 57

5.2 #19:不要想当然 58

5.3 #18:消除单点故障 59

5.4 #17:执行安全 60

5.5 #16:加强服务器的性能 61

5.6 #15:留意速度 62

5.7 #14:实施更改控制 63

5.8 #13:时时备案 64

5.9 #12:采用服务级协议 65

5.10 #11:超前策划 66

5.11 #10:尽量多试验 67

5.12 #9:隔离你的环境 68

5.13 #8:以史为鉴 69

5.14 #7:设计要留有余地 70

5.15 #6:选择成熟的软件 70

5.16 #5:选择成熟可靠的硬件 72

5.17 #4:重新使用配置 73

5.18 #3:利用外部资源 74

5.19 #2:一步一个脚印 75

5.20 #1:尽量简单化 76

5.21 要点 78

6.1 备份的基本规则 79

第6章 备份与恢复 79

6.2 备份能否真正提供高可用性 81

6.3 需要对什么进行备份 81

6.3.1 对备份进行备份 82

6.3.2 获得异地备份 82

6.4 备份软件 83

6.4.1 商业软件还是自主研发 83

6.4.2 商业备份软件实例 83

6.4.3 商业备份软件的特性 84

6.5 备份性能 86

6.5.1 提高备份性能:找出瓶颈 86

6.5.2 解决性能问题 90

6.6.1 增量备份 93

6.6 备份类型 93

6.6.2 数据库增量备份 95

6.6.3 缩短备份窗口 96

6.6.4 热备份 96

6.6.5 数据越少,越省时间(和空间) 97

6.6.6 使用更多的硬件 99

6.6.7 复杂的软件特征 101

6.7 处理备份磁带和数据 104

常规备份安全 106

6.8 恢复 107

恢复所需要的磁盘空间 108

6.9 总结 108

6.10 要点 109

第7章 高度可用的数据管理 110

7.1 四个基本原理 111

7.1.1 磁盘发生故障的可能性 111

7.1.2 磁带盘上的数据 111

7.1.3 保护数据 112

7.1.4 确保数据的可达性 112

7.2 数据存储和管理的六个独立层次 112

7.3 磁盘硬件与连通性术语 113

7.3.1 SCSI 113

7.3.2 光纤通道 115

7.3.3 多路径 116

7.3.6 热交换 117

7.3.4 多主机 117

7.3.5 磁盘阵列 117

7.3.7 逻辑设备(LUN)和卷 118

7.3.8 JBOD(就是一组磁盘) 118

7.3.9 热备件 118

7.3.10 写入高速缓存 118

7.3.11 存储区域网络(SAN) 118

7.4 RAID技术 120

7.4.1 RAID的级别 121

7.4.2 其他种类的RAID 128

7.5 磁盘空间和文件系统 133

7.5.1 大磁盘还是小磁盘 134

7.5.2 当LUN填满时会出现什么情况 135

7.5.3 管理磁盘和卷的可用性 136

7.5.4 文件系统的恢复 137

7.6 要点 137

第8章 存储区域网络、网络连接存储与存储虚拟化 139

8.1 存储区域网络 139

8.1.1 选用SAN的理由 141

8.1.2 SAN硬件设备简介 143

8.2 网络连接存储 144

8.3 SAN与NAS比较 145

8.4 存储虚拟化 149

8.4.2 存储虚拟化的类型 150

8.4.1 选择存储虚拟化的理由 150

8.5 要点 153

第9章 组网 154

9.1 网络故障分类 155

9.1.1 网络可靠性挑战 155

9.1.2 网络故障模式 156

9.1.3 物理设备故障 157

9.1.4 IP层故障 158

9.1.5 拥塞引起的故障 160

9.2 构建冗余网络 162

9.2.1 虚拟IP地址 163

9.2.2 冗余网络连接 164

9.2.3 多重网络的配置 167

9.2.4 IP路由冗余 170

9.2.5 网络恢复模式选择 172

9.3 负载平衡和网络重定向 173

9.3.1 循环DNS 173

9.3.2 网络重定向 174

9.4 动态IP地址 176

9.5 网络服务可靠性 176

9.5.1 网络服务依赖性 177

9.5.2 强化核心服务 179

9.5.3 拒绝服务攻击 180

9.6 要点 182

10.1 数据中心 183

第10章 数据中心和本地环境 183

10.1.1 数据中心机架 185

10.1.2 平衡安全性和可访问性 187

10.1.3 数据中心观光 188

10.1.4 异地主机设施 189

10.2 电 191

UPS 191

10.3 线缆铺设 193

10.4 冷却及环境问题 195

10.5 系统命名惯例 196

10.6 要点 198

11.1 系统管理与修正 199

第11章 人与程序 199

11.1.1 维护计划与步骤 200

11.1.2 系统修正 201

11.1.3 备用设备方针 203

11.1.4 预防性维护 204

11.2 供应商管理 204

11.2.1 选择关键的供应商 205

11.2.2 与供应商合作 207

11.2.3 在系统恢复中供应商的角色 208

11.3 安全性 209

11.3.2 病毒与蠕虫 211

11.3.1 数据中心的安全 211

11.4 文档 212

11.4.1 文档的使用者 213

11.4.2 文档与安全 214

11.4.3 检查文档 214

11.5 系统管理员 215

11.6 内部扩增 217

故障标识 219

11.7 要点 219

第12章 客户端与用户 220

12.1 强化企业客户端 220

12.1.1 客户端备份 221

12.1.2 客户端补给 222

12.1.3 瘦客户端 223

12.2 容许数据服务故障 224

12.2.1 文件服务器客户端恢复 224

12.2.2 数据库应用程序恢复(Database Application Recovery) 226

12.2.3 Web客户端恢复(Web Client Recovery) 227

12.3 要点 229

第13章 应用程序设计 230

13.1 应用程序恢复概览 231

13.1.1 应用程序的故障模式 231

13.1.2 应用程序恢复技术 232

13.2 从系统故障中进行应用程序恢复 234

13.1.3 更软性的故障 234

13.2.1 虚拟内存耗尽 235

13.2.2 I/O错误 236

13.2.3 数据库应用程序的重新连接 236

13.2.4 网路连通性 237

13.2.5 重启网络服务 238

13.2.6 网络拥塞、重发和超时设定 239

13.3 内部应用程序故障 241

13.3.1 内存访问错误 241

13.3.2 内存滥用和恢复 242

13.4 开发人员“卫生学” 243

13.3.3 挂起进程 243

13.4.1 返回值检查 244

13.4.2 边界条件检查 245

13.4.3 基于值的安全 246

13.4.4 日志支持 247

13.5 进程复制 248

13.5.1 冗余服务进程 249

13.5.2 进程状态多路广播 250

13.5.3 检查点技术 251

13.6 不做假设,管理一切 252

13.7 要点 253

14.1 网络文件系统服务 254

第14章 数据和Web服务 254

14.1.1 检测RFC故障 255

14.1.2 NFS服务器的约束 256

14.1.3 文件锁定 258

14.1.4 失效文件句柄 260

14.2 数据库服务器 261

14.2.1 管理恢复时间 262

14.2.2 破坏之中求生存 264

14.2.3 任何(高)速度下的不安全状态 264

14.3 冗余和可用性 266

多个实例对比更大的实例 267

14.4 基于Web的服务可靠性 268

14.4.1 Web服务器群集 268

14.4.2 应用服务器 270

14.4.3 目录服务器 272

14.4.4 Web服务标准 273

14.5 要点 274

第15章 本地群集和故障转移 276

15.1 群集技术简介 277

15.2 服务器故障和故障转移 279

15.3 逻辑性的以应用为中心的思想 281

15.4 故障转移的要求 282

15.4.2 服务器间的差异 284

15.4.1 服务器 284

15.4.3 网络 286

15.4.4 磁盘 292

15.4.5 应用程序 295

15.5 大型群集 295

15.6 要点 296

第16章 故障转移管理和难题 297

16.1 故障转移管理软件 297

16.2 部件监控 298

16.2.1 实施检测的人和关于其他部件监测的问题 299

16.2.2 当部件检测失败时 300

16.3 进行手工故障转移的时机 301

16.4 自主开发的故障转移软件还是商业软件 303

16.5 商业故障转移管理软件 304

16.6 当好的故障转移软件出错时 305

16.6.1 脑裂综合症 305

16.6.2 不受欢迎的故障转移 309

16.7 验证和检测 310

16.7.1 状态转换图 310

16.7.2 测试作品 312

16.8 管理故障转移 313

16.8.1 系统监测 313

16.8.2 控制台 313

16.8.3 工具 314

16.9.1 复制数据群集 315

16.9 其他群集话题 315

16.8.4 时间问题 315

16.9.2 群集之间的距离 317

16.9.3 负载均衡群集和故障转移 317

16.10 要点 318

第17章 故障转移结构 319

17.1 双节点故障转移结构 319

17.1.1 “主-从”故障转移 319

17.1.2 “主-主”故障转移 324

17.1.3 “主-主”还是“主-从” 325

17.2 服务组故障转移 326

17.3.1 N对1群集系统 328

17.3 更大型的群集系统结构 328

17.3.2 N加1群集系统 329

17.4 群集系统的规模应该有多大 331

17.5 要点 332

第18章 数据复制 333

18.1 复制概述 333

18.2 进行复制的原因 334

18.3 复制类型 334

18.3.1 四类按延迟时间划分的复制类型 334

18.3.2 五种按启动程序划分的复制类型 338

18.4 有关复制的其他思想 351

18.4.1 SAN:复制的另一种方式 351

18.4.2 多个目的地系统 352

18.5 要点 354

18.4.3 远程应用程序故障转移 354

第19章 虚拟机和资源管理 355

19.1 分区和域:系统级的VM 356

19.2 容器:操作系统级的VM 357

19.3 资源管理 358

19.4 要点 360

第20章 灾难恢复计划 361

20.1 DR计划的是与非 362

20.2 DR计划的3个主要目标 362

20.2.1 员工的健康与保护 362

20.3 良好的DR计划 363

20.2.2 企业的存活 363

20.2.3 企业的连续性 363

20.4 准备构建DR计划 364

20.5 选择DR现场 368

20.5.1 实际位置 368

20.5.2 DR现场安全 371

20.5.3 停留在DR现场的时间 372

20.6 分发DR计划 372

20.6.1 DR计划内容 372

20.6.2 分发措施 373

20.7 计划受众 374

20.8 时间线 375

20.9.1 指派人员 376

20.9 灾难恢复小组任务指派 376

20.9.2 管理层的角色 377

20.10 DR计划的多与寡 378

20.11 共用DR现场 379

20.12 装备DR现场 380

20.13 DR计划的测试 381

20.13.1 高质量演习的特性 382

20.13.2 演习计划 383

20.14 三种演习类型 387

20.14.1 全面演练 387

20.13.3 演习之后 387

20.14.2 桌上演练 388

20.14.3 电话链演练 388

20.15 灾难对人员的影响 389

20.15.1 对灾难的典型反应 389

20.15.2 企业应采取的措施 390

20.16 要点 391

第21章 弹性企业 392

21.1 纽约期货交易所 392

21.1.1 第一次灾难的发生 394

21.1.2 大型交易所决不该是这样的 395

21.1.3 对千年虫问题的准备 397

21.1.4 9·11事件 400

21.1.5 恢复运行 401

21.1.6 混乱的交易环境 404

21.1.7 灾难恢复现场的改进 406

21.1.8 新数据中心 407

21.1.9 新交易设施 407

21.1.10 未来的灾难恢复计划 408

21.1.11 技术 409

21.1.12 对人的影响 411

21.2 总结 412

第22章 未来技术展望 414

22.1 iSCSI 414

22.2 InfiniBand 415

22.3 全部文件系统还原 416

22.4 网格计算 417

22.5 刀片计算 418

22.6 全球存储储存库 419

22.7 自主的、基于政策的计算 421

22.8 媒介 422

22.9 软件质量和Byzantine可靠性 423

22.10 业务连续性 424

22.11 要点 424

第23章 别语 425

我们怎么到达这里 425

相关图书
作者其它书籍
返回顶部