手写实现强化学习算法：从TD学习到DQN实践

sched yield

1. 项目概述

最近在复现西湖大学赵世钰老师的强化学习课程代码，这是一个非常有意思的实践项目。作为强化学习领域的入门者，我发现通过亲手实现这些经典算法，能够更深入地理解强化学习的核心原理。这个项目涵盖了1-8章的算法复现，特别值得一提的是，所有神经网络都是基于numpy手写实现的，这对于理解深度学习底层机制非常有帮助。

项目代码托管在Gitee平台，包含了完整的实现环境和示例代码。从基础的网格世界环境到复杂的DQN算法，这个项目为学习者提供了一个完整的强化学习实践框架。我自己在复现过程中收获颇丰，特别是在理解TD学习、SARSA算法和策略梯度等核心概念方面有了质的飞跃。

2. 环境搭建与代码结构

2.1 运行环境配置

项目运行需要Python 3.6+环境，主要依赖库包括：

numpy (1.19.0+)
matplotlib (3.3.0+)
jupyter notebook (可选，用于运行main.ipynb)

建议使用conda创建虚拟环境：

bash复制conda create -n rl_env python=3.8
conda activate rl_env
pip install numpy matplotlib jupyter

2.2 代码结构解析

项目代码结构清晰，主要分为三部分：

环境参数 (arguments5x5.py)
- 定义了网格世界的环境参数
- 包括状态空间、动作空间、奖励函数等核心要素
算法实现 (grid_world.py)
- 包含各种强化学习算法的实现
- 如动态规划、蒙特卡洛、TD学习等
- 同时集成了可视化绘图功能
神经网络框架 (network.py)
- 基于numpy手写的神经网络
- 支持全连接层、激活函数、损失函数等基本组件
- 为DQN等深度强化学习算法提供支持

提示：在开始复现前，建议先仔细阅读grid_world.py中的环境实现，理解网格世界的基本运行机制。

3. 核心算法实现解析

3.1 TD学习算法实现

第七章的SARSA算法实现尤为精彩，让我们深入分析这段代码：

python复制policy_matrix,episodes_len,total_rewards,errors = \
    env.TD7_2_sarsa(epsilon=0.1,isExpectedSarsa=False,start_state=0, iterations=2000, gamma=0.9, Alpha=0.01)

这段代码调用了TD7_2_sarsa方法，主要参数包括：

epsilon: ε-greedy策略中的探索率
isExpectedSarsa: 是否使用Expected SARSA变体
start_state: 起始状态
iterations: 训练迭代次数
gamma: 折扣因子
Alpha: 学习率

算法内部实现了几大关键步骤：

初始化Q值表
使用ε-greedy策略选择动作
执行SARSA更新规则
记录训练过程中的关键指标

3.2 神经网络框架设计

network.py中手写的神经网络框架值得特别关注。它实现了：

全连接层(LinearLayer)
ReLU/Sigmoid激活函数
MSE/CrossEntropy损失函数
基本的反向传播算法

一个典型的使用示例如下：

python复制# 构建网络
model = Network()
model.add(LinearLayer(input_size=4, output_size=16))
model.add(ReLU())
model.add(LinearLayer(input_size=16, output_size=2))

# 训练网络
optimizer = SGD(lr=0.01)
loss_fn = MSELoss()
for epoch in range(100):
    # 前向传播
    output = model.forward(state)
    # 计算损失
    loss = loss_fn(output, target)
    # 反向传播
    model.backward(loss_fn.backward())
    # 参数更新
    optimizer.step(model)

这种底层实现方式虽然不如现成框架方便，但对于理解神经网络的工作原理非常有帮助。

4. 可视化与结果分析

4.1 策略可视化

项目提供了完善的可视化功能，可以直观地展示学习结果：

python复制fig = plt.figure(num=1,figsize=(10,5))
axs = fig.subplots(1,2)
env.grid_plot(fig=fig,axs=axs[0])
env.plot_max_policy(policy_matrix)

这段代码生成两个子图：

左侧显示网格世界环境和最优策略
右侧显示收敛误差曲线

从结果图中可以观察到：

智能体成功找到了从起点到终点的最优路径
收敛误差随着训练逐渐降低，表明算法有效
总奖励曲线呈现上升趋势，说明策略在不断改进

4.2 训练过程监控

训练过程中的关键指标也被完整记录：

python复制plt.subplot(2,1,1)
plt.plot(total_rewards, label='reward')
plt.subplot(2,1,2)
plt.plot(episodes_len, label='len')

这两个子图分别展示了：

每个episode获得的总奖励
每个episode的长度(步数)

通过分析这些曲线，我们可以：

评估算法的学习效率
判断是否出现收敛
发现训练过程中的异常情况

5. 实践心得与优化建议

在实际复现过程中，我总结了以下几点经验：

参数调优技巧
- 学习率(Alpha)不宜过大，否则会导致震荡
- ε值需要平衡探索与利用，建议从0.1开始逐步衰减
- 折扣因子γ影响长期回报的考量，通常设置在0.9-0.99之间
常见问题排查
- 如果奖励不增长：检查环境奖励设置是否正确
- 如果策略不收敛：尝试减小学习率或增加迭代次数
- 如果出现NaN值：检查网络初始化是否合理
扩展改进方向
- 实现Double DQN解决Q值高估问题
- 添加优先级经验回放提高样本效率
- 尝试不同的神经网络结构