第1章 绪论 1
1.1 增强学习基本原理 1
1.1.1 马尔可夫决策过程 1
1.1.2 增强学习系统 2
1.1.3 增强学习算法的分类与发展概述 4
1.2 增强学习算法应用引例——最短路问题 7
1.3 增强学习算法在调度领域的应用研究 20
1.4 本书组织结构 22
第2章 增强学习算法 23
2.1 经典的增强学习算法 23
2.1.1 TD/TD(λ)学习算法 23
2.1.2 Q学习 24
2.1.3 Sarsa算法 24
2.1.4 R学习 25
2.2 Sarsa (λ, κ)算法 26
2.2.1 Sarsa (λ, κ)算法的基本原理 26
2.2.2 前视与后视Sarsa (λ, κ)算法 29
2.2.3 Sarsa (λ, κ)算法的性质 34
2.3 SMDP型Sarsa (λ, κ)算法 40
2.4 多维行为的增强学习算法 44
2.5 一种自适应步长的增强学习算法 46
第3章 流水车间调度问题 49
3.1 问题描述 49
3.2 流水车间调度问题的增强学习模型 49
3.2.1 系统状态表示 49
3.2.2 行为 51
3.2.3 报酬函数 54
3.3 结合线性函数泛化器的TD (λ)算法及实验结果 55
3.3.1 结合线性函数泛化器的TD(λ)算法 55
3.3.2 实验结果 57
第4章 平行机调度问题 60
4.1 最小化加权平均流程时间的离线平行机调度 60
4.1.1 问题描述 60
4.1.2 增强学习模型 61
4.1.3 实验结果 66
4.2 最小化加权平均误工时间的离线平行机调度 68
4.2.1 问题描述 68
4.2.2 增强学习建模 69
4.2.3 实验结果 75
4.3 最小化加权平均流程时间的在线平行机调度 79
4.3.1 问题描述 79
4.3.2 增强学习模型 79
4.3.3 实验结果 83
4.4 最小化加权平均误工时间的在线平行机调度 85
4.4.1 问题描述 85
4.4.2 增强学习模型 85
4.4.3 求解变速机调度问题的R学习 90
4.4.4 实验结果 92
第5章 半导体测试调度问题 98
5.1 半导体测试调度问题描述 98
5.2 关于半导体测试调度的研究 103
5.2.1 附加资源充足的半导体测试调度 103
5.2.2 附加资源受限的半导体测试调度 104
5.2.3 和半导体测试调度相关的调度问题 107
5.2.4 小结 109
5.3 整数规划模型 109
5.3.1 符号定义 110
5.3.2 决策变量 110
5.3.3 目标函数和约束 111
5.3.4 问题性质分析 113
5.4 半导体测试调度问题的增强学习模型 113
5.4.1 状态变量及状态转移机制 115
5.4.2 行为 118
5.4.3 报酬函数 129
5.5 结合函数泛化器的Sarsa (λ, κ)算法 132
5.5.1 径向基神经网络函数泛化器 132
5.5.2 神经网络的构造 134
5.5.3 函数泛化器的权重更新法则 135
5.5.4 结合径向基神经网络函数泛化器的Sarsa (λ, κ)算法 136
5.6 演示算例 139
5.7 参数设置与函数泛化器性能分析 146
5.7.1 行为选择 147
5.7.2 参数设置 147
5.7.3 函数泛化器性能分析 154
5.8 半导体测试调度实验结果与分析 157
5.8.1 与工业方法及各行为策略对比 157
5.8.2 与其他增强学习算法对比 159
5.8.3 与能力约束调度方法对比 161
5.9 讨论 162
5.10 可重构制造系统调度 163
5.10.1 具有可重构特性的调度系统机制 164
5.10.2 增强学习模型架构 168
第6章 排队网络控制问题 173
6.1 多服务台排队系统控制的半马尔可夫决策模型 173
6.1.1 问题描述 174
6.1.2 半马尔可夫决策模型建模 174
6.1.3 排队控制系统的性质 180
6.1.4 数值例子 187
6.2 自组织型排队网络控制问题 189
6.2.1 自组织型排队网络控制问题描述 191
6.2.2 自组织型排队网络控制问题的增强学习模型 193
6.2.3 解决自组织型排队网络控制问题的增强学习算法 197
第7章 结束语 201
参考文献 205
其他参考文献 216