当前位置:首页 > 工业技术
高性能计算系统与大数据分析
高性能计算系统与大数据分析

高性能计算系统与大数据分析PDF电子书下载

工业技术

  • 电子书积分:11 积分如何计算积分?
  • 作 者:(印)佩瑟鲁·拉吉等著;齐宁译
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111611752
  • 页数:274 页
图书介绍:本书介绍了大数据分析所需的高性能基础设施以及高性能大数据分析领域的新技术和工具。在新兴分析类型方面,涵盖了传感器分析、机器分析、运营分析、实时分析、高性能分析、社交媒体和网络分析、客户情绪分析、品牌优化分析、金融交易及趋势分析、零售分析、能量分析、药物分析以及效用分析等。在IT基础设施方面,则包含了大型机、并行和超级计算系统、P2P、集群和网格计算系统设备、专业集成和按需定制的系统、实时系统、云基础设施等。本书适合业务主管、技术专家、软件工程师、大数据科学家、解决方案架构师阅读。
《高性能计算系统与大数据分析》目录

第1章 IT领域的变革以及未来趋势 1

1.1 引言 1

1.2 新兴的IT趋势 1

1.3 数字化实体的实现与发展 4

1.4 物联网/万物互联 5

1.5 对社交媒体网站的广泛采用 7

1.6 预测性、规范性、个性化分析时代 7

1.7 用于大数据及分析的Apache Hadoop 11

1.8 大数据、大洞见、大动作 13

1.9 结论 15

1.10 习题 15

第2章 大数据/快速数据分析中的高性能技术 16

2.1 引言 16

2.2 大数据分析学科的出现 17

2.3 大数据的战略意义 18

2.4 大数据分析的挑战 19

2.5 高性能计算范型 19

2.6 通过并行实现高性能的方法 21

2.7 集群计算 22

2.8 网格计算 24

2.9 云计算 27

2.10 异构计算 29

2.11 用于高性能计算的大型机 31

2.12 用于大数据分析的超级计算 32

2.13 用于大数据分析的设备 32

2.13.1 用于大规模数据分析的数据仓库设备 33

2.13.2 in-memory大数据分析 35

2.13.3 大数据的in-database处理 37

2.13.4 基于Hadoop的大数据设备 38

2.13.5 高性能大数据存储设备 41

2.14 结论 42

2.15 习题 42

参考文献 43

第3章 大数据与快速数据分析对高性能计算的渴望 44

3.1 引言 44

3.2 重新审视大数据分析范型 45

3.3 大数据和快速数据的含义 47

3.4 用于精确、预测性、规范性洞见的新兴数据源 48

3.5 大数据分析为何不俗 50

3.6 传统的和新一代的数据分析案例研究 51

3.7 为何采用基于云的大数据分析 55

3.8 大数据分析:主要处理步骤 57

3.9 实时分析 58

3.10 流分析 62

3.11 传感器分析 63

3.11.1 大数据分析与高性能计算的同步:附加价值 63

3.12 结论 64

3.13 习题 64

第4章 高性能大数据分析的网络基础设施 65

4.1 引言 65

4.2 当前网络基础设施的局限 66

4.3 高性能大数据分析网络基础设施的设计方法 68

4.3.1 网络虚拟化 68

4.3.2 软件定义网络 76

4.3.3 网络功能虚拟化 78

4.4 用于传输大数据的广域网优化 79

4.5 结论 81

4.6 习题 81

参考文献 81

第5章 高性能大数据分析的存储基础设施 82

5.1 引言 82

5.2 直连式存储 83

5.2.1 DAS的缺点 84

5.3 存储区域网络 85

5.3.1 块级访问 85

5.3.2 文件级访问 85

5.3.3 对象级访问 85

5.4 保存大数据的存储基础设施需求 86

5.5 光纤通道存储区域网络 87

5.6 互联网协议存储区域网络 88

5.6.1 以太网光纤通道 88

5.7 网络附属存储 89

5.8 用于高性能大数据分析的流行文件系统 89

5.8.1 Google文件系统 89

5.8.2 Hadoop分布式文件系统 91

5.8.3 Panasas 92

5.8.4 Luster 文件系统 94

5.9 云存储简介 96

5.9.1 云存储系统的架构模型 96

5.9.2 存储虚拟化 98

5.9.3 云存储中使用的存储优化技术 100

5.9.4 云存储的优点 101

5.10 结论 101

5.11 习题 101

参考文献 102

进一步阅读 102

第6章 使用高性能计算进行实时分析 103

6.1 引言 103

6.2 支持实时分析的技术 103

6.2.1 in-memory处理 103

6.2.2 in-database分析 105

6.3 大规模在线分析 106

6.4 通用并行文件系统 107

6.4.1 GPFS用例 107

6.5 GPFS客户案例研究 111

6.5.1 广播公司:VRT 111

6.5.2 石油公司从Lustre迁移到GPFS 113

6.6 GPFS:关键的区别 113

6.6.1 基于GPFS的解决方案 114

6.7 机器数据分析 114

6.7.1 Splunk 114

6.8 运营分析 115

6.8.1 运营分析中的技术 115

6.8.2 用例以及运营分析产品 116

6.8.3 其他IBM运营分析产品 117

6.9 结论 117

6.10 习题 118

第7章 高性能计算范型 119

7.1 引言 119

7.2 为何还需要大型机 119

7.3 大型机中HPC是如何演化的 120

7.3.1 成本:HPC的一个重要因素 120

7.3.2 云计算中的集中式HPC 120

7.3.3 集中式HPC的要求 121

7.4 HPC远程模拟 121

7.5 使用HPC的大型机解决方案 121

7.5.1 智能大型机网格 121

7.5.2 IMG的工作原理 122

7.5.3 IMG架构 122

7.6 架构模型 125

7.6.1 具有共享磁盘的存储服务器 125

7.6.2 没有共享磁盘的存储服务器 125

7.6.3 无存储服务器的通信网络 125

7.7 对称多处理 126

7.7.1 什么是SMP 126

7.7.2 SMP与集群方法 126

7.7.3 SMP是否真的重要 126

7.7.4 线程模型 127

7.7.5 NumaConnect技术 127

7.8 用于HPC的虚拟化 127

7.9 大型机方面的创新 127

7.10 FICON大型机接口 128

7.11 大型机对手机的支持 129

7.12 Windows高性能计算 129

7.13 结论 130

7.14 习题 131

第8章 in-database处理与in-memory分析 132

8.1 引言 132

8.1.1 分析工作负载与事务工作负载的对比 132

8.1.2 分析工作负载的演化 133

8.1.3 传统分析平台 135

8.2 in-database分析 135

8.2.1 架构 137

8.2.2 优点和局限 138

8.2.3 代表性的系统 138

8.3 in-memory分析 140

8.3.1 架构 141

8.3.2 优点和局限 142

8.3.3 代表性的系统 142

8.4 分析设备 145

8.4.1 Oracle Exalytics 145

8.4.2 IBM Netezza 145

8.5 结论 147

8.6 习题 147

参考文献 148

进一步阅读 148

第9章 大数据/快速数据分析中的高性能集成系统、数据库和数据仓库 149

9.1 引言 149

9.2 下一代IT基础设施和平台的关键特征 150

9.3 用于大数据/快速数据分析的集成系统 150

9.3.1 用于大数据分析的Urika-GD设备 151

9.3.2 IBM PureData System forAnalytics 152

9.3.3 Oracle Exadata Database Machine 153

9.3.4 Teradata数据仓库和大数据设备 153

9.4 大数据分析的融合式基础设施 154

9.5 高性能分析:大型机+Hadoop 155

9.6 快速数据分析的in-memory平台 158

9.7 大数据分析的in-database平台 160

9.8 用于高性能大数据/快速数据分析的云基础设施 161

9.9 用于大数据的大文件系统 164

9.10 用于大数据/快速数据分析的数据库和数据仓库 166

9.10.1 用于大数据分析的NoSQL数据库 167

9.10.2 用于大数据/快速数据分析的NewSQL数据库 169

9.10.3 用于大数据分析的高性能数据仓库 170

9.11 流分析 173

9.12 结论 176

9.13 习题 176

第10章 高性能网格和集群 177

10.1 引言 177

10.2 集群计算 179

10.2.1 集群计算的动机 179

10.2.2 集群计算架构 180

10.2.3 软件库和编程模型 182

10.2.4 先进集群计算系统 189

10.2.5 网格与集群间的差异 189

10.3 网格计算 190

10.3.1 网格计算的动机 191

10.3.2 网格计算的演进 192

10.3.3 网格系统的设计原则和目标 192

10.3.4 网格系统架构 193

10.3.5 网格计算系统的优点和局限 196

10.3.6 网格系统和应用 196

10.3.7 网格计算的未来 201

10.4 结论 202

10.5 习题 202

参考文献 203

进一步阅读 204

第11章 高性能P2P系统 205

11.1 引言 205

11.2 设计原则与特点 206

11.3 P2P系统架构 207

11.3.1 集中式P2P系统 207

11.3.2 分散式P2P系统 208

11.3.3 混合P2P系统 210

11.3.4 高级P2P架构通信协议和框架 211

11.4 高性能P2P应用 212

11.4.1 Cassandra 212

11.4.2 SETI@Home 214

11.4.3 比特币:基于P2P的数字货币 215

11.5 结论 216

11.6 习题 217

参考文献 217

进一步阅读 219

第12章 高性能大数据分析的可视化维度 220

12.1 引言 220

12.2 常用技术 224

12.2.1 图表 224

12.2.2 散点图 225

12.2.3 树状图 226

12.2.4 箱形图 226

12.2.5 信息图 227

12.2.6 热图 227

12.2.7 网络和图的可视化 228

12.2.8 词云与标签云 228

12.3 数据可视化工具与系统 229

12.3.1 Tableau 229

12.3.2 Birst 231

12.3.3 Roambi 232

12.3.4 Qlikview 233

12.3.5 IBM Cognos 234

12.3.6 Google Charts和融合表 234

12.3.7 Data-Driven Documents(D3.js) 235

12.3.8 Sisense 236

12.4 结论 237

12.5 习题 237

参考文献 238

进一步阅读 238

第13章 用于组织增权的社交媒体分析 239

13.1 引言 239

13.1.1 社交数据收集 239

13.1.2 社交数据分析 240

13.1.3 移动设备的发展 240

13.1.4 强大的可视化机制 240

13.1.5 数据本身的快速变化 240

13.2 社交媒体分析入门 241

13.3 建立一个用于企业社交媒体分析的框架 242

13.4 社交媒体内容指标 243

13.5 社交媒体分析的预测分析技术 244

13.6 使用文本挖掘的情感分析架构 245

13.7 社交媒体数据的网络分析 246

13.7.1 社交媒体数据的网络分析入门 246

13.7.2 使用Twitter的网络分析 247

13.7.3 极化网络图 247

13.7.4 In-Group图 248

13.7.5 Twitter品牌图 248

13.7.6 Bazaar网络 248

13.7.7 广播图 248

13.7.8 支持网络图 248

13.8 组织的社交媒体分析的不同方面 249

13.8.1 收入及销售的潜在客户开发 250

13.8.2 客户关系和客户体验管理 251

13.8.3 创新 251

13.9 社交媒体工具 251

13.9.1 社交媒体监控工具 251

13.9.2 社交媒体分析工具 252

13.10 结论 252

13.11 习题 252

参考文献 252

第14章 医疗保健的大数据分析 253

14.1 引言 253

14.2 影响医疗保健的市场因素 254

14.3 不同的相关方设想不同的目标 255

14.4 大数据对医疗保健的好处 255

14.4.1 医疗保健效率和质量 256

14.4.2 早期疾病检测 256

14.4.3 欺诈检测 256

14.4.4 人口健康管理 257

14.5 大数据技术采纳:一个新的改进 258

14.5.1 IBM Watson 258

14.5.2 IBM Watson架构 258

14.6 医疗保健领域中的Watson 259

14.6.1 WellPoint和IBM 259

14.7 EHR技术 259

14.7.1 EHR数据流 260

14.7.2 EHR的优点 261

14.8 远程监控和传感 261

14.8.1 技术组件 261

14.8.2 应用远程监控的医疗保健领域 261

14.8.3 远程监控的局限 262

14.9 面向医疗保健的高性能计算 262

14.10 人脑网络的实时分析 262

14.11 癌症检测 263

14.12 3D医学图像分割 263

14.13 新兴医疗方法 264

14.14 BDA在医疗保健方面的用例 264

14.15 人口健康控制 265

14.16 护理流程管理 265

14.16.1 核心IT功能 265

14.17 Hadoop用例 266

14.18 大数据分析:成功案例 268

14.19 BDA在医疗保健方面的机会 269

14.20 Member 360 269

14.21基因组学 269

14.22临床监测 271

14.23 BDA在医疗保健中的经济价值 271

14.24医疗保健的大数据挑战 272

14.25医疗保健大数据的未来 273

14.26结论 273

14.27习题 273

返回顶部