《云计算实战 可靠性与可用性设计》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:(美)鲍尔,(美)亚当斯著
  • 出 版 社:北京:人民邮电出版社
  • 出版年份:2014
  • ISBN:9787115329325
  • 页数:246 页
图书介绍:本书在明确了云计算、虚拟化、服务可靠性以及服务可用性的关键术语和概念的基础上,通过对云计算服务可靠性及可用性的分析,结合云计算所涉及的虚拟化、分布式部署等技术特点,全面、深入、系统地探讨了云计算系统及服务可靠性的设计、计算、评估、优化方法。

第1部分 基本概念篇 3

第1章 云计算 3

1.1云的基本特征 3

1.1.1按需自服务 4

1.1.2广泛的网络访问 4

1.1.3资源共享 4

1.1.4快速弹性 5

1.1.5服务可度量 5

1.2共有的云特征 6

1.3云计算到底是什么 6

1.3.1什么是数据中心 7

1.3.2云计算和传统数据中心有何不同 8

1.4服务模式 8

1.5云部署模式 9

1.6云计算中的角色 10

1.7云计算的优势 12

1.8云计算的风险 12

第2章 虚拟化 13

2.1背景 13

2.2什么是虚拟化 14

2.2.1管理程序的类型 14

2.2.2虚拟和仿真 15

2.3服务器虚拟化 15

2.3.1完全虚拟化 16

2.3.2部分虚拟化 17

2.3.3操作系统虚拟化 17

2.3.4讨论 17

2.4虚拟机的生命周期 18

2.4.1虚拟机快照 20

2.4.2克隆虚拟机 20

2.4.3高可用性机制 21

2.5虚拟化的可靠性和可用性风险 21

第3章 服务可靠性和服务可用性 22

3.1错误和失效 22

3.2八成分框架 24

3.3服务可用性 26

3.3.1服务可用性指标 26

3.3.2 MTBF和MTTR 27

3.3.3服务和网元影响中断 28

3.3.4局部中断 29

3.3.5可用性等级 30

3.3.6中断归因 31

3.3.7计划内宕机时间 32

3.4服务可靠性 33

3.4.1服务可靠性指标 33

3.4.2缺陷事务 34

3.5服务时延 35

3.6冗余和高可用性 38

3.6.1冗余 39

3.6.2高可用性 41

3.7高可用性和灾难恢复 43

3.8流媒体服务 45

3.8.1控制和数据平面 45

3.8.2服务质量指标 45

3.8.3等时性数据 46

3.8.4时延期望 47

3.8.5流媒体质量损伤 47

3.9云计算的可靠性和可用性风险 48

第2部分 分析篇 51

第4章 云计算的可靠性和可用性分析 51

4.1服务可靠性和可用性的期望 51

4.2云基本特征的风险 52

4.2.1按需自助服务 52

4.2.2宽带网络接入 52

4.2.3资源池 52

4.2.4快速弹性 53

4.2.5测量服务 54

4.3常见云特征的影响 55

4.3.1虚拟化 55

4.3.2地理分布 55

4.3.3弹性计算 55

4.3.4高级安全性 55

4.3.5大规模 56

4.3.6同质化 56

4.4服务模式的风险 56

4.4.1传统的责任归因 56

4.4.2云应用的责任归因 57

4.5 IT服务管理和可用性的风险 58

4.5.1 ITIL概述 58

4.5.2服务策略 59

4.5.3服务设计 59

4.5.4服务转移 60

4.5.5服务运营 61

4.5.6持续服务改进 61

4.5.7 IT服务管理概述 62

4.5.8服务编排的风险 62

4.5.9 IT服务管理风险 63

4.6过程区域中断的风险 63

4.7故障检测的注意事项 65

4.7.1硬件故障 67

4.7.2编程错误 67

4.7.3数据的不一致性和错误 67

4.7.4 冗余错误 67

4.7.5系统电源故障 67

4.7.6网络错误 67

4.7.7应用协议错误 68

4.8部署模型的风险 68

4.9 IaaS数据中心的期望值 68

第5章 虚拟化的可靠性分析 70

5.1可靠性分析技术 70

5.1.1可靠性框图 70

5.1.2单点故障分析 71

5.1.3故障模式影响分析(FMEA) 71

5.2虚拟化技术的可靠性分析 73

5.2.1全虚拟化分析 73

5.2.2虚拟操作系统分析 74

5.2.3半虚拟化分析 74

5.2.4 VM共存分析 75

5.2.5讨论 77

5.3软件故障率分析 77

5.3.1虚拟化和软件故障率 77

5.3.2虚拟机管理程序故障率 78

5.3.3虚拟化和云的其他软件风险 78

5.4恢复模型 78

5.4.1传统的恢复选项 78

5.4.2虚拟化恢复选项 79

5.4.3讨论 82

5.5应用架构策略 83

5.5.1按需单用户模式 83

5.5.2单用户守护进程模式 84

5.5.3多用户服务器模式 84

5.5.4服务器整合模式 84

5.6虚拟化恢复方式的可用性建模 85

5.6.1虚拟化单工架构的可用性 85

5.6.2虚拟化冗余架构的可用性 86

5.6.3关键故障率 86

5.6.4故障覆盖率 87

5.6.5故障检测延迟 87

5.6.6切换延迟 87

5.6.7切换成功率 87

5.6.8建模与“快速故障” 88

5.6.9本地和虚拟化部署的比较 88

第6章 硬件可靠性、虚拟化和服务可用性 89

6.1对硬件故障停机时间的期望 89

6.2硬件故障 89

6.3硬件故障率 91

6.4硬件故障检测 92

6.5硬件故障遏制 93

6.6硬件故障的缓解 93

6.7通过虚拟化缓解硬件故障 95

6.7.1虚拟CPU 95

6.7.2虚拟内存 96

6.7.3虚拟存储 96

6.8虚拟化网络 97

6.8.1虚拟网络接口卡 97

6.8.2虚拟局域网 98

6.8.3虚拟IP地址 99

6.8.4虚拟专用网络 99

6.9虚拟硬件的MTTR 99

6.10讨论 100

第7章 容量和弹性 101

7.1系统负载基础知识 101

7.1.1特别事件的考虑 102

7.1.2 Slashdot效应 103

7.2过载、服务的可靠性和可用性 103

7.3传统的容量规划 104

7.4云和容量 105

7.4.1标称的云存储模型 106

7.4.2弹性的期望 108

7.5管理联机容量 110

7.6容量相关的服务风险 112

7.6.1弹性和弹性故障 112

7.6.2部分容量故障 114

7.6.3服务延迟风险 115

7.6.4容量损伤和服务可靠性 117

7.7容量管理风险 117

7.7.1脆弱的应用架构 118

7.7.2故障或监测数据不足 118

7.7.3错误的容量决策 119

7.7.4不可靠的容量扩张 119

7.7.5不可靠的容量缩减 119

7.7.6转换速度不足 119

7.7.7缓慢的容量管理决策 120

7.7.8资源库存耗竭 120

7.7.9云跳转失败 120

7.7.10政策限制 120

7.8安全性和服务可用性 121

7.8.1服务可用性的安全风险 121

7.8.2拒绝服务攻击 122

7.8.3 DoS攻击的防御 123

7.8.4量化安全攻击对服务可用性的影响 123

7.8.5建议 124

7.9弹性扩张和收缩的架构 124

第8章 服务编排分析 126

8.1服务编排定义 126

8.2基于策略的管理 127

8.2.1 SLR的作用 128

8.2.2服务可靠性和可用性的测量 128

8.3云管理 129

8.3.1云管理中快速弹性的作用 129

8.3.2云管理中云突发的作用 129

8.4服务编排在风险缓解中的作用 130

8.4.1延迟 130

8.4.2可靠性 130

8.4.3监督管理 131

8.4.4安全 131

8.5小结 132

第9章 地理分布、地理冗余和灾难恢复 133

9.1地理分布VS地理冗余 133

9.2传统的灾难恢复 134

9.3虚拟化和灾难恢复 135

9.4云计算和灾难恢复 136

9.5地理冗余恢复模型 137

9.6云和传统地理冗余的附加益处 138

9.6.1减少预期的宕机时间 138

9.6.2缓解灾难性的网络元件故障 138

9.6.3减少未发现的和双工元件故障 139

9.7讨论 139

第3部分 建议篇 143

第10章 应用、解决方案和责任认定 143

10.1应用配置场景 143

10.2应用的部署方案 144

10.3系统宕机时间预期 145

10.3.1传统的系统宕机时间预期 145

10.3.2虚拟化应用宕机时间预期 146

10.3.3 IaaS的硬件宕机时间预期 147

10.3.4云应用的宕机时间预算 149

10.3.5总结 151

10.4最终的端到端解决方案的注意事项 151

10.4.1什么是端到端解决方案 152

10.4.2云消费者的特定架构 153

10.4.3数据中心冗余 154

10.5服务不佳的原因 155

10.6解决方案服务的测量 157

10.7管理可靠性和云计算服务 160

第11章 构建可靠系统的建议 161

11.1虚拟化和云计算的架构 161

11.1.1软件映射到VM 161

11.1.2服务负载分配 162

11.1.3数据管理 162

11.1.4软件冗余和高可用性机制 163

11.1.5快速弹性 165

11.1.6过载控制 165

11.1.7共享 165

11.1.8多租户 166

11.1.9同步应用 166

11.2灾难恢复 167

11.3 IT服务管理的注意事项 167

11.3.1软件升级和打补丁 167

11.3.2服务迁移活动的影响分析 168

11.3.3通过VM迁移缓解服务迁移活动的影响 168

11.3.4服务迁移活动的测试 170

11.3.5流程错误最小化 170

11.3.6服务编排的注意事项 172

11.4许多分布式云VS少量巨型云 172

11.5硬件归因宕机时间最小化 173

11.6架构优化 178

11.6.1可靠性和可用性标准 178

11.6.2可访问性优化 179

11.6.3高可用性、持续性、可靠性和质量优化 181

11.6.4灾难恢复优化 181

11.6.5操作注意事项 181

11.6.6案例分析 182

11.6.7理论最优的应用架构 186

第12章 虚拟化应用的可靠性设计 188

12.1可靠性设计 188

12.2调整DfR以适应虚拟化应用 189

12.2.1硬件独立性应用场景 189

12.2.2服务器整合应用场景 190

12.2.3多租户应用场景 191

12.2.4虚拟化设备应用方案 191

12.2.5云部署应用场景 191

12.3可靠性要求 191

12.3.1通用可用性要求 192

12.3.2服务的可靠性和延迟要求 192

12.3.3过载要求 193

12.3.4在线容量增长和收缩 194

12.3.5(虚拟化)实时迁移要求 195

12.3.6系统转变活动的要求 196

12.3.7地理冗余和服务持续性要求 196

12.4可靠性定性分析 197

12.4.1虚拟化应用的SPOF分析 197

12.4.2虚拟化应用的故障模式影响分析 198

12.4.3容量的增长和收缩分析 198

12.5可靠性定量预算与建模 199

12.5.1可用性(宕机时间)建模 199

12.5.2整体宕机时间预算及目标 200

12.5.3管理维护预算分配 200

12.6健壮性测试 200

12.6.1基准健壮性测试 201

12.6.2高级主题:虚拟化能更好地测试健壮性 204

12.7稳定性测试 205

12.8实际性能分析 206

12.9可靠性路线图 207

12.10硬件可靠性 208

第13章 云计算解决方案的可靠性设计 209

13.1解决方案的可靠性设计 209

13.2解决方案范围和期望 210

13.3可靠性需求 212

13.3.1解决方案的可用性需求 212

13.3.2解决方案的可靠性需求 212

13.3.3灾难恢复需求 213

13.3.4弹性需求 214

13.3.5明确的配置参数 214

13.4解决方案建模与分析 215

13.4.1云数据中心部署的可靠性框图 215

13.4.2解决方案故障模式的影响分析 215

13.4.3解决方案服务转变活动的影响分析 216

13.4.4云数据中心的服务可用性(MP 2)分析 216

13.4.5聚合服务可用性(MP3)建模 216

13.4.6恢复点目标分析 219

13.5组件可靠性检查 219

13.6解决方案的测试和验证 219

13.6.1健壮性测试 220

13.6.2服务的可靠性测试 220

13.6.3地理冗余测试 220

13.6.4弹性与调度测试 221

13.6.5稳定性测试 221

13.6.6在用服务测试 221

13.7实际性能的跟踪和分析 222

13.7.1云服务的测量 223

13.7.2解决方案的可靠性路线图 224

13.8解决方案可靠性的其他主题 225

13.8.1服务等级协议 225

13.8.2云服务提供商的选择 226

13.8.3书面的可靠性计划 226

第14章 总结 228

14.1服务可靠性和服务可用性 229

14.2故障问责和云计算 230

14.3服务宕机时间因素 232

14.4服务可用性测量点 234

14.5云容量和弹性的考虑 235

14.6最大化服务可用性 236

14.6.1降低产品归因的宕机时间 236

14.6.2降低数据中心归因的宕机时间 236

14.6.3降低IT服务管理的宕机时间 236

14.6.4降低灾难恢复的宕机时间 237

14.6.5优化云服务可用性 237

14.7可靠性努力 238

14.8结束语 239

缩略语 240

参考文献 244