《基于增强学习的制造系统调度》PDF下载

购买积分：10 如何计算积分？
作　　者：张智聪，郑力著
出版社：北京：科学出版社
出版年份：2016
ISBN：9787030492890
页数：219 页

图书介绍：本书对增强学习的基本原理、主要算法及其在若干制造系统调度领域的应用进行了深入论述。主要内容包括：Sarsa(k)增强学习算法、多维行为的增强学习算法等增强学习算法的介绍及相关理论证明，增强学习架构及面向生产调度问题的增强学习模型构建方式，流水车间调度问题、平行机调度问题、半导体测试站调度问题等制造系统调度问题与自组织型排队网络调度问题的增强学习模型及解决方案，增强学习在以上调度问题应用的实验结果与优化分析等。本书针对制造系统调度问题的特点，系统阐述了应用增强学习算法解决制造系统调度问题的整体架构和应用流程。本书是作者多年来在国家自然科学基金项目、广东省自然科学基金项目和广东省科技计划项目等项目资助下所取得研究成果的总结，本书的出版旨在丰富增强学习领域的理论方法及其在制造系统调度领域的应用研究。

点击购买此书全本PDF电子书

第1章绪论 1

1.1 增强学习基本原理 1

1.1.1 马尔可夫决策过程 1

1.1.2 增强学习系统 2

1.1.3 增强学习算法的分类与发展概述 4

1.2 增强学习算法应用引例——最短路问题 7

1.3 增强学习算法在调度领域的应用研究 20

1.4 本书组织结构 22

第2章增强学习算法 23

2.1 经典的增强学习算法 23

2.1.1 TD/TD（λ）学习算法 23

2.1.2 Q学习 24

2.1.3 Sarsa算法 24

2.1.4 R学习 25

2.2 Sarsa （λ， κ）算法 26

2.2.1 Sarsa （λ， κ）算法的基本原理 26

2.2.2 前视与后视Sarsa （λ， κ）算法 29

2.2.3 Sarsa （λ， κ）算法的性质 34

2.3 SMDP型Sarsa （λ， κ）算法 40

2.4 多维行为的增强学习算法 44

2.5 一种自适应步长的增强学习算法 46

第3章流水车间调度问题 49

3.1 问题描述 49

3.2 流水车间调度问题的增强学习模型 49

3.2.1 系统状态表示 49

3.2.2 行为 51

3.2.3 报酬函数 54

3.3 结合线性函数泛化器的TD （λ）算法及实验结果 55

3.3.1 结合线性函数泛化器的TD（λ）算法 55

3.3.2 实验结果 57

第4章平行机调度问题 60

4.1 最小化加权平均流程时间的离线平行机调度 60

4.1.1 问题描述 60

4.1.2 增强学习模型 61

4.1.3 实验结果 66

4.2 最小化加权平均误工时间的离线平行机调度 68

4.2.1 问题描述 68

4.2.2 增强学习建模 69

4.2.3 实验结果 75

4.3 最小化加权平均流程时间的在线平行机调度 79

4.3.1 问题描述 79

4.3.2 增强学习模型 79

4.3.3 实验结果 83

4.4 最小化加权平均误工时间的在线平行机调度 85

4.4.1 问题描述 85

4.4.2 增强学习模型 85

4.4.3 求解变速机调度问题的R学习 90

4.4.4 实验结果 92

第5章半导体测试调度问题 98

5.1 半导体测试调度问题描述 98

5.2 关于半导体测试调度的研究 103

5.2.1 附加资源充足的半导体测试调度 103

5.2.2 附加资源受限的半导体测试调度 104

5.2.3 和半导体测试调度相关的调度问题 107

5.2.4 小结 109

5.3 整数规划模型 109

5.3.1 符号定义 110

5.3.2 决策变量 110

5.3.3 目标函数和约束 111

5.3.4 问题性质分析 113

5.4 半导体测试调度问题的增强学习模型 113

5.4.1 状态变量及状态转移机制 115

5.4.2 行为 118

5.4.3 报酬函数 129

5.5 结合函数泛化器的Sarsa （λ， κ）算法 132

5.5.1 径向基神经网络函数泛化器 132

5.5.2 神经网络的构造 134

5.5.3 函数泛化器的权重更新法则 135

5.5.4 结合径向基神经网络函数泛化器的Sarsa （λ， κ）算法 136

5.6 演示算例 139

5.7 参数设置与函数泛化器性能分析 146

5.7.1 行为选择 147

5.7.2 参数设置 147

5.7.3 函数泛化器性能分析 154

5.8 半导体测试调度实验结果与分析 157

5.8.1 与工业方法及各行为策略对比 157

5.8.2 与其他增强学习算法对比 159

5.8.3 与能力约束调度方法对比 161

5.9 讨论 162

5.10 可重构制造系统调度 163

5.10.1 具有可重构特性的调度系统机制 164

5.10.2 增强学习模型架构 168

第6章排队网络控制问题 173

6.1 多服务台排队系统控制的半马尔可夫决策模型 173

6.1.1 问题描述 174

6.1.2 半马尔可夫决策模型建模 174

6.1.3 排队控制系统的性质 180

6.1.4 数值例子 187

6.2 自组织型排队网络控制问题 189

6.2.1 自组织型排队网络控制问题描述 191

6.2.2 自组织型排队网络控制问题的增强学习模型 193

6.2.3 解决自组织型排队网络控制问题的增强学习算法 197

第7章结束语 201

参考文献 205

其他参考文献 216