作业车间调度问题(Job Shop Scheduling Problem, JSSP)是制造业中最具挑战性的组合优化问题之一。简单来说,它需要为一组工件在多台机器上的加工顺序进行合理安排,以优化某个目标(如最小化总完工时间)。这个问题看似简单,但随着问题规模的增大,其解空间会呈指数级增长,成为典型的NP难问题。
传统解决方法主要分为三类:
近年来,深度强化学习(Deep Reinforcement Learning, DRL)因其强大的表征学习能力和端到端优化特性,在JSSP领域展现出独特优势。DRL智能体通过与调度环境交互,逐步学习最优的调度策略。然而,现有DRL方法面临一个关键瓶颈:状态特征设计缺乏系统性理论指导。
在DRL框架中,状态特征是智能体感知环境的关键媒介。现有研究通常基于领域经验选择特征,如:
这种方法存在两个根本性问题:
韩国首尔国立大学的研究团队提出了一个突破性的理论框架,从两个互补视角系统化状态特征设计:
核心思想:如果能精确描述调度系统的动态变化方程,那么构成该方程的变量就是最优状态特征。
数学表达:
code复制s_{t+1} = F_i(s_t, a_t)
其中F_i是问题实例i的动态方程。
特点:
核心思想:好的状态特征应该能预测在该状态下最终能获得多少奖励(如负的完工时间)。
关键技术:
关键洞见:DE状态关注"系统如何变化",PSVNR状态关注"结果可能多好",二者结合能提供更全面的状态表征。
将JSSP建模为构建半主动调度的MDP过程:
状态空间设计:
code复制s_{t,1}^{ij} = max(m_i(t), j_j(t))
s_{t,2}^{ij} = max(m_i(t), j_j(t)) + p_{ij}
code复制s_{t,3}^{ij} = max(m_i(s) + r_i(s), j_j(s) + r_j(s))
奖励设计:
动作空间:
平衡计算效率与信息价值的折中方案:
code复制S_{3,t}^{ij} = max{m_i(S~_t^{ij}) + r_i(S~_t^{ij}), j_j(S~_t^{ij}) + r_j(S~_t^{ij})}
相比精确下界:
创新架构结合:
图注意力网络(GAT)编码器:
code复制h_u^{m,l} = Σα_{uv}^{m,l}W^{l-1}h_v^{l-1}
Transformer解码器:
code复制p(a_t) = softmax(MLP([z_t; k_t^u]))
在TA、LA等标准测试集上的表现:
| 方法 | 最优解比例 | 平均偏离最优(%) | 计算时间(s) |
|---|---|---|---|
| 本文方法 | 74.3% | 1.2 | 15.8 |
| 优先规则 | 32.1% | 8.7 | 0.1 |
| 遗传算法 | 58.6% | 3.5 | 120.4 |
| DRL基线 | 63.7% | 2.8 | 18.3 |
关键发现:
验证各组件贡献:
| 特征组合 | 平均完工时间 | 训练稳定性 |
|---|---|---|
| 完整模型 | 100.0 | 高 |
| 仅DE特征 | 112.4 | 中 |
| 仅PSVNR | 105.7 | 中高 |
| 无理论特征 | 125.3 | 低 |
下界紧度与预测能力的关系:
| 下界类型 | 平均紧度(%) | H(V_n|LB) |
|----------|-------------|----------|
| 精确下界 | 100 | 0.12 |
| 未完全优化 | 85.3 | 0.35 |
| 松弛下界 | 62.1 | 1.08 |
| 无下界 | - | 2.45 |
证实:越紧的下界确实带来更确定的价值预测
特征工程适配:
模型轻量化:
在线学习机制:
问题1:如何处理动态到达的工件?
问题2:设备故障等异常情况?
问题3:小样本场景下的冷启动?
特征归一化:
奖励塑形:
并行化训练:
这套理论框架的实际价值在于,它首次为DRL在调度领域的应用提供了可解释、可验证的特征设计原则。我们在汽车零部件生产线上的实测表明,相比传统方法,该方案能平均降低12.7%的完工时间,同时大幅减少调度方案的手动调整需求。