1.1 机群并行计算 1
1.1.1 机群与并行机 1
第一章 机群软件 1
1.1.2 机群并行计算的系统软件 2
1.1.3 机群并行计算的问题 4
1.1.4 机群并行计算的前景 5
1.2 机群管理 6
1.2.1 机群管理软件的功能 6
1.2.2 典型机群管理软件 9
1.2.3 机群管理软件比较 11
1.2.4 小结 14
1.3 分布式操作系统 15
1.3.1 典型分布式操作系统 15
1.3.2 分布式共享存储器机群并行计算软件 17
1.4.1 机群并行编程方法 18
1.4 机群计算环境 18
1.4.2 报文传递系统 19
1.4.3 并行编程环境 22
1.5 机群系统 23
1.5.1 机群实例 24
1.5.2 机群系统评价 26
本章参考文献 29
第二章 机群上的负载共享 33
2.1 空闲工作站共享与调度结构 33
2.1.1 引言 33
2.1.2 工作站的调度结构 34
2.1.3 远程执行设备 35
2.2 空闲工作站共享系统Sidle 36
2.2.2 调度 37
2.2.1 系统组成及工作原理 37
2.2.3 远程执行设备 38
2.2.4 分布并行PROLOG解释系统DC—PROLOG 42
2.2.5 应用 42
2.2.6 性能 44
2.3 负载平衡 46
2.3.1 转移策略 46
2.3.2 选择策略 46
2.3.3 定位策略 47
2.3.4 信息交换策略 48
2.3.5 负载平衡算法分类 48
2.4 负载指标 49
2.4.1 负载指标的选择 49
2.4.2 资源利用率与作业响应时间 50
2.4.3 资源利用率和CPU队列对作业响应时间的影响的估算 52
2.4.4 资源利用率与负载平衡 53
2.4.5 小结 55
2.5 作业性质的获得 55
2.5.1 获得作业性质的方法 55
2.5.2 作业的在线跟踪 56
2.5.3 作业的CPU利用率及IO利用率的确定 59
2.5.4 作业执行时间的估计 59
2.5.5 在线跟踪的几个问题 61
2.5.6 相关工作 63
2.6 智能负载平衡系统ILBOT 63
2.6.1 组成 63
2.6.2 调度算法 64
2.6.3 作业选择策略 64
2.6.4 ILBOT中最佳机的搜索 66
2.6.5 ILBOT的性能 71
本章参考文献 72
第三章 机群上的并行计算 76
3.1 调度PVM任务 76
3.1.1 系统组成 76
3.1.2 作业划分与调度算法 77
3.1.3 任务池的调度 77
3.1.4 动态生成的子任务的调度 78
3.1.5 应用 80
3.2 协作任务的调度 83
3.2.1 引言 83
3.2.2 调度模型和算法 83
3.2.3 任务调度系统的实现 84
3.2.4 性能 85
3.3 PVM并行函数库 87
3.2.5 相关工作 87
3.3.1 任务划分及调度策略 88
3.3.2 库函数的实现 89
3.3.3 性能 90
3.3.4 相关工作比较 91
3.4 并行Prolog系统的处理机分配 92
3.4.1 引言 92
3.4.2 优化的处理机分配算法 93
3.4.3 算法的实现 94
3.4.4 结果及开销 95
3.5 PESS:一个并行计算的支撑系统 96
3.5.1 FORK和JOIN的语义 96
3.5.2 系统实现 97
3.5.3 实例测试 99
3.6.1 问题与解 100
3.6 远程机群上的并行计算 100
3.6.2 远程巨型机代理 101
3.6.3 远程并行计算过程 101
3.6.4 RP的组成 102
3.6.5 计算实例 104
3.6.6 相关工作比较 105
本章参考文献 105
第四章 机群上的检查点和进程迁移 108
4.1 分布式系统的检查点算法 108
4.1.1 应用 108
4.1.2 单进程程序检查点算法 109
4.1.3 分布式程序检查点算法 110
4.1.4 检查点算法的改进策略与算法 112
4.1.5 问题 114
4.2 SFT:短冻结时间的一致检查点算法 115
4.2.1 系统IPC模型 116
4.2.2 SFT算法 116
4.2.3 SFT正确性及其性质证明 118
4.2.4 SFT实现 119
4.2.5 相关工作 119
4.3 SCR:文件状态的保存与恢复算法 120
4.3.1 SCR算法 120
4.3.2 SCR算法的实现 123
4.3.3 性能 125
4.4 进程迁移 127
4.4.1 引言 127
4.4.2 典型系统进程迁移机制简介 127
4.5 对CONDOR的分析和改进 130
4.5.1 引言 130
4.5.2 Condor的控制软件 131
4.5.3 Condor远程系统调用的实现 132
4.5.4 Condor的检查点机制 133
4.5.5 Condor的局限性 138
4.5.6 对Condor实现的几点改进 138
4.6 在PVM中实现进程迁移 139
4.6.1 引言 139
4.6.2 PVM的进程通信机制 139
4.6.3 修改PVM进程通信机制 140
4.6.4 进程迁移的控制过程 141
4.7 容错 143
4.7.1 机群容错方法 143
4.7.2 Fail-safe PVM 144
4.7.3 Dome 146
4.8.1 DPVM调度系统 150
4.8 DPVM:支持任务迁移的PVM 150
4.8.2 基于检查点的进程迁移 154
4.8.3 任务调度 156
4.8.4 性能 158
4.8.5 相关工作及结论 159
本章参考文献 160
第五章 PC机群 163
5.1 基于LINUX的PC机群 163
5.1.1 PC机与工作站 163
5.1.2 典型PC机群计算系统 164
5.1.3 调度系统的组成 164
5.1.4 在Linux上实现DPVM的任务调度功能 165
5.1.5 应用的例子 166
5.2 PPE95:基于Windows95的并行编程环境 166
5.2.1 PPE95系统结构 167
5.2.2 进程通信 168
5.2.3 状态检测与更新 170
5.2.4 调度 171
5.2.5 守护进程PVMD 173
5.2.6 函数库 176
5.2.7 系统启动 178
5.2.8 可视化监控界面 180
5.2.9 性能 182
本章参考文献 182
第六章 应用与机间通信 184
6.1 机群应用性能 184
6.1.1 端到端通信速度 184
6.1.2 应用程序性能 185
6.1.3 大规模并行性 187
6.2 提高机间通信速度 188
6.2.1 通信瓶颈 188
6.2.2 PVM的通信机制 189
6.2.3 ATM网络和其它高速网络 190
6.2.4 多通道系统 192
6.2.5 共享存储器 193
6.2.6 修改网络通信协议 195
6.3 用ATM支持机群的高速机间通信 195
6.3.1 在ATM上运行PVM 195
6.3.2 具有选择重传机制的流量控制 198
6.3.3 使用ATM API实现通信的网络性能 200
6.3.4 粒度与通信之间的关系 201
本章参考文献 202
7.1 图形用户接口 205
7.1.1 概述 205
第七章 可视化并行编程环境 205
7.1.2 HeNCE 206
7.1.3 VPE 207
7.1.4 VPE与HeNCE的对比 212
7.2 NCSE 212
7.2.1 相关工作 213
7.2.2 应用程序的创建及执行 214
7.2.3 应用实例 216
7.3 PaCE 217
7.3.1 结构 217
7.3.2 图形程序的编译和运行 220
7.3.3 并行程序的运行 228
7.3.4 监控功能 228
7.3.5 相关工作 229
本章参考文献 231
第八章 分布式共享存储器机群 232
8.1 DSM设计决策的多重性 232
8.1.1 分布式共享存储器系统 232
8.1.2 DSM算法 233
8.1.3 共享的数据 233
8.1.4 一致性协议 234
8.1.5 实现方法 235
8.1.6 实现策略举例 235
8.2 基于RM-ODP的DSM系统结构 235
8.2.1 RM-ODP 235
8.2.2 企业观点下的需求分析 236
8.2.3 信息观点下的存储与访问模式 237
8.2.4 计算观点下的一致性与透明性 239
8.2.5 工程观点下的系统设计 242
8.3.1 Mach和Linux 243
8.2.6 技术观点 243
8.3 在Mach和Linux上实现DSM集成系统 243
8.3.2 用户接口 244
8.3.3 存储对象属性的设置 245
8.3.4 缺页调度程序 246
8.4 应用程序的需求分析 246
8.4.1 相关工作 246
8.4.2 一致性协议 247
8.4.3 存储对象分类 247
8.4.4 面向存储对象的一致性协议 248
8.4.5 例子:写共享 250
8.5 DSM集成系统配置的决策机制 252
8.5.1 相关工作 252
8.5.3 在线跟踪方法 253
8.5.2 用户指定方法 253
8.5.4 不精确推理方案 254
8.6 RTUTH:链表实时更新算法 255
8.6.1 相关工作 255
8.6.2 基本原理 257
8.6.3 更新时机 257
8.6.4 链表结构 258
8.6.5 链表更新协议 258
8.7 DSM系统的优化并发控制 259
8.7.1 OCC与CTP 260
8.7.2 OCCL与OCC_CTP 261
本章参考文献 263
附录1 中英文名词对照 268
附录2 DPVM源代码选 272
附录3 作者们发表的主要的有关文章 295
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《计算机辅助平面设计》吴轶博主编 2019
- 《计算机组成原理解题参考 第7版》张基温 2017
- 《云计算节能与资源调度》彭俊杰主编 2019
- 《Helmholtz方程的步进计算方法研究》李鹏著 2019
- 《计算机组成原理 第2版》任国林 2018
- 《大学计算机信息技术教程 2018版》张福炎 2018
- 《计算机自适应英语语用能力测试系统设计与效度验证 以TEM4词汇与语法题为例》张一鑫著 2019
- 《大学计算机》王观玉,周力军,杨福建主编 2019