深度强化学习在作业车间调度中的状态特征设计

爱过河的小马锅

1. 作业车间调度问题的深度强化学习解法概述

作业车间调度问题（Job Shop Scheduling Problem, JSSP）是制造业中最具挑战性的组合优化问题之一。简单来说，它需要为一组工件在多台机器上的加工顺序进行合理安排，以优化某个目标（如最小化总完工时间）。这个问题看似简单，但随着问题规模的增大，其解空间会呈指数级增长，成为典型的NP难问题。

传统解决方法主要分为三类：

精确算法（如分支定界法）：适合小规模问题，但无法应对实际生产规模
启发式规则（如最早完工时间优先）：计算快但解质量有限
元启发式算法（如遗传算法）：需要大量调参且计算成本高

近年来，深度强化学习（Deep Reinforcement Learning, DRL）因其强大的表征学习能力和端到端优化特性，在JSSP领域展现出独特优势。DRL智能体通过与调度环境交互，逐步学习最优的调度策略。然而，现有DRL方法面临一个关键瓶颈：状态特征设计缺乏系统性理论指导。

2. 状态特征设计的理论困境与突破

2.1 传统方法的局限性

在DRL框架中，状态特征是智能体感知环境的关键媒介。现有研究通常基于领域经验选择特征，如：

机器负载率
工序等待时间
剩余工序数量
当前完工时间估计

这种方法存在两个根本性问题：

理论缺失：特征选择依赖直觉，无法保证其完备性和必要性
可解释性差：难以理解特定特征对决策的实际影响
泛化受限：针对特定问题设计的特征难以迁移到新场景

2.2 双视角理论框架

韩国首尔国立大学的研究团队提出了一个突破性的理论框架，从两个互补视角系统化状态特征设计：

动力学方程状态（DE状态）

核心思想：如果能精确描述调度系统的动态变化方程，那么构成该方程的变量就是最优状态特征。

数学表达：

code复制s_{t+1} = F_i(s_t, a_t)

其中F_i是问题实例i的动态方程。

特点：

在单一实例中，DE状态等同于马尔可夫状态
能实现完全的未来状态预测
但难以扩展到多实例场景

基于名义奖励预测的状态值状态（PSVNR状态）

核心思想：好的状态特征应该能预测在该状态下最终能获得多少奖励（如负的完工时间）。

关键技术：

名义奖励设计：仅在终止状态给出奖励（R_N(s_T) = -C_max）
PSVNR条件：特征ϕ(s)与名义奖励下的状态值V_n需满足I(V_n;ϕ(s))>0
理论证明：任何非平凡的下界值都满足PSVNR条件

关键洞见：DE状态关注"系统如何变化"，PSVNR状态关注"结果可能多好"，二者结合能提供更全面的状态表征。

3. 理论框架的实例化实现

3.1 马尔可夫决策过程建模

将JSSP建模为构建半主动调度的MDP过程：

状态空间设计：

静态部分：工序关系异构图（6个归一化特征）

动态部分：

DE状态特征：最早开始/完成时间

code复制s_{t,1}^{ij} = max(m_i(t), j_j(t))
s_{t,2}^{ij} = max(m_i(t), j_j(t)) + p_{ij}

PSVNR状态特征：未完全优化下界

code复制s_{t,3}^{ij} = max(m_i(s) + r_i(s), j_j(s) + r_j(s))

奖励设计：

名义奖励：R_N(s_T) = -C_max
替代奖励：r_{t+1} = -(max j_{t+1} - max j_t)

动作空间：

从可调度工序集合A(s_t)中选择一个工序

3.2 算法创新

未完全优化下界

平衡计算效率与信息价值的折中方案：

code复制S_{3,t}^{ij} = max{m_i(S~_t^{ij}) + r_i(S~_t^{ij}), j_j(S~_t^{ij}) + r_j(S~_t^{ij})}

相比精确下界：

计算复杂度从O(n^2)降至O(n)
仍保持较好的紧度（平均85%以上）

图增强Transformer模型

创新架构结合：

图注意力网络（GAT）编码器：
- 处理工序关系图结构
- 多头注意力机制学习节点嵌入
```
code复制h_u^{m,l} = Σα_{uv}^{m,l}W^{l-1}h_v^{l-1}
```
Transformer解码器：
- 动态融合静态嵌入与动态特征
- 基于上下文嵌入的决策机制
```
code复制p(a_t) = softmax(MLP([z_t; k_t^u]))
```

4. 实验验证与效果分析

4.1 基准测试结果

在TA、LA等标准测试集上的表现：

方法	最优解比例	平均偏离最优(%)	计算时间(s)
本文方法	74.3%	1.2	15.8
优先规则	32.1%	8.7	0.1
遗传算法	58.6%	3.5	120.4
DRL基线	63.7%	2.8	18.3

关键发现：

在15×15问题上达到74.3%的最优解比例
平均偏离最优仅1.2%，显著优于对比方法
计算时间在可接受范围内

4.2 消融实验

验证各组件贡献：

特征组合	平均完工时间	训练稳定性
完整模型	100.0	高
仅DE特征	112.4	中
仅PSVNR	105.7	中高
无理论特征	125.3	低

4.3 理论验证

下界紧度与预测能力的关系：

| 下界类型 | 平均紧度(%) | H(V_n|LB) |
|----------|-------------|----------|
| 精确下界 | 100 | 0.12 |
| 未完全优化 | 85.3 | 0.35 |
| 松弛下界 | 62.1 | 1.08 |
| 无下界 | - | 2.45 |

证实：越紧的下界确实带来更确定的价值预测