基于Q-Learning的倒立摆控制算法实现与优化

2021在职mba

1. 项目背景与核心挑战

倒立摆系统作为控制理论中的经典问题，一直被视为检验各类控制算法性能的"试金石"。这个看似简单的物理系统（一根摆杆通过关节连接在小车上）却蕴含着丰富的非线性动力学特性，对控制器的实时性和鲁棒性提出了极高要求。传统PID控制虽然能实现基本平衡，但在参数调节和抗干扰能力方面存在明显局限。

去年我在参与一个自动化仓储项目时，就遇到了类似场景——需要设计一套能够自主调整姿态的物流搬运车。当时尝试了多种控制方法后，最终发现基于Q-Learning的强化学习方案在动态环境适应性上表现尤为突出。这促使我决定用Matlab搭建一个完整的仿真环境，系统性地验证这类算法在倒立摆控制中的实际效果。

2. 系统建模与仿真环境搭建

2.1 动力学方程推导

建立精确的数学模型是仿真的基础。通过拉格朗日方程推导，得到小车倒立摆系统的非线性动力学方程：

code复制(m_c + m_p)ẍ + m_p l θ̈ cosθ - m_p l θ̇² sinθ = F
m_p l ẍ cosθ + (I + m_p l²)θ̈ - m_p g l sinθ = 0

其中m_c为小车质量（我设置为0.5kg），m_p为摆杆质量（0.2kg），l为摆杆质心到转轴距离（0.3m），I为摆杆转动惯量。这个方程组揭示了系统的高度非线性特性——控制力F与摆角θ之间存在复杂的耦合关系。

2.2 Matlab仿真框架构建

在Simulink中搭建的仿真模型包含以下几个关键模块：

物理系统模块：实现上述动力学方程
状态观测模块：采集位置x、速度ẋ、摆角θ、角速度θ̇
控制决策模块：运行Q-Learning算法
可视化模块：实时显示小车和摆杆运动状态

特别要注意的是采样时间设置。经过多次测试，发现将仿真步长设为0.02秒（对应50Hz控制频率）能在计算精度和实时性之间取得较好平衡。更小的步长会导致训练时间剧增，而大于0.05秒则会出现明显的控制滞后。

3. Q-Learning算法实现细节

3.1 状态空间离散化

将连续状态变量离散化是Q-Learning的关键步骤。我的具体处理方式：

位置x：[-2.4m, 2.4m]区间，划分为10个区间
速度ẋ：[-1.5m/s, 1.5m/s]，8个区间
角度θ：[-12°, 12°]，15个区间
角速度θ̇：[-3rad/s, 3rad/s]，12个区间

这样形成的状态空间总维度为10×8×15×12=14,400。这个规模既能保证控制精度，又不会导致"维度灾难"。实际测试发现，将角度分辨率提高到20个区间时，训练时间会呈指数增长，但控制效果提升有限。

3.2 动作空间与奖励函数设计

动作空间简化为三个离散值：

+10N：向右推动
-10N：向左拉动
0N：保持不动

奖励函数采用分段设计：

matlab复制if abs(θ) > pi/2  % 摆杆倒下
    reward = -100;
elseif abs(x) > 2.4  % 小车出界
    reward = -50;
else
    reward = 1 - 0.1*abs(θ) - 0.05*abs(x); 
end

这种设计既惩罚失败状态，又鼓励摆杆保持竖直和小车居中。系数0.1和0.05是通过参数扫描找到的最佳平衡点。

4. 训练过程优化技巧

4.1 ϵ-greedy策略的动态调整

初始阶段设置ϵ=0.9（高探索率），随着训练轮次按以下规律衰减：

matlab复制epsilon = max(0.1, 0.9*exp(-episode/500))

这样在前500轮保持较强探索，之后逐渐偏向利用已有知识。实测发现这种衰减方式比线性衰减收敛更快。

4.2 学习率与折扣因子选择

采用动态学习率方案：

matlab复制alpha = 0.7 / (1 + episode/1000)

折扣因子γ经过对比实验，最终确定为0.95。这个值既能保证长期回报的考虑，又避免奖励传播过于分散。

4.3 经验回放技术实现

建立容量为5000的循环缓冲区存储(s,a,r,s')转移样本。每步更新时随机抽取32个样本进行批量学习，显著提高了数据利用率。在Matlab中可以用circular buffer对象高效实现：

matlab复制buffer = circularBuffer(5000);
buffer.put([state,action,reward,new_state]);
batch = buffer.sample(32);

5. 性能评估与对比实验

5.1 收敛性分析

在Core i7-11800H处理器上，完整训练需要约2小时（5000轮）。观察到的典型收敛曲线：

前300轮：平均奖励快速上升
300-1500轮：震荡上升阶段
1500轮后：趋于稳定

成功标准设为连续100轮平均奖励>0.8，本系统平均在1200轮左右达到。

5.2 抗干扰测试

在系统平衡后施加脉冲干扰（模拟外力冲击）：

0.5N·s的瞬时冲量：恢复时间<2s
1.0N·s冲量：80%概率能恢复平衡
相比之下，传统PID在1.0N·s冲量下成功率不足30%

5.3 与传统控制方法对比

指标	Q-Learning	PID控制	LQR控制
稳定时间(s)	1.2	3.5	2.0
抗干扰性	★★★★☆	★★☆☆☆	★★★☆☆
参数调节难度	自动学习	困难	中等
计算资源需求	高	低	中