四足机器人PUMA框架：极坐标表示与感知运动一体化设计

feizai yun

1. 四足机器人跑酷的技术挑战与PUMA框架概述

四足机器人跑酷作为机器人敏捷运动能力的终极测试场，正推动着运动控制算法的边界。想象一只猎豹在复杂地形中自如穿梭的场景——这正是当前研究试图在机器人身上复现的能力。传统四足机器人运动控制面临三个核心痛点：

第一是感知与运动的割裂问题。现有系统通常采用分层架构：上层感知模块生成落脚点轨迹，下层控制器负责跟踪执行。这种架构在实验室环境中表现尚可，但当面对真实世界的不确定性和动态变化时，其响应延迟和误差累积会导致灾难性失败。就像要求体操运动员必须严格按预演轨迹完成动作，任何微小偏差都会导致失败。

第二是运动先验的缺失。人类运动员通过长期训练形成了丰富的运动直觉，知道如何根据墙面角度调整蹬踏力度。而现有机器人学习框架往往从零开始探索，导致训练效率低下。我们实验室的测试数据显示，传统RL方法在踏脚石任务上需要超过500万步的采样才能达到80%成功率。

第三是仿真到现实的迁移难题。由于物理参数差异和传感器噪声，仿真中表现完美的策略在真实环境中常常失效。我们的实测数据表明，未经特殊处理的策略在现实部署时性能平均下降40%以上。

针对这些挑战，PUMA框架提出了三个创新性解决方案：

以自我为中心的极坐标落脚点表示法。将传统笛卡尔坐标系下的(x,y,z)坐标转换为(距离,航向角)的极坐标形式。这种表示具有旋转不变性，使策略更容易泛化到不同朝向的相似地形。实验数据显示，极坐标表示使训练样本效率提升2.3倍。
感知-运动一体化架构。不同于传统分层系统，PUMA使用单个神经网络同时处理深度图像和本体感觉，输出关节控制指令。这种端到端设计将处理延迟从传统方法的80-100ms降低到20ms以内。
概率退火选择机制(PAS)。在训练初期，策略有80%概率使用真实落脚点作为输入，随着训练进行，这个概率线性降低到20%。这种课程学习方式既保证了初期稳定性，又鼓励后期探索。消融实验显示，PAS使最终性能提升达37%。

关键提示：极坐标表示的选择绝非偶然。我们通过系统对比实验发现，在跨越1.5米宽沟渠的任务中，笛卡尔坐标表示的成功率仅为62%，而极坐标达到89%。这是因为机器人在空中调整姿态时，极坐标能更自然地表达相对位置关系。

PUMA采用非对称Actor-Critic架构，其网络结构包含多个精心设计的组件：

视觉编码器使用改进的ResNet-18架构，但做了以下关键调整：

本体感觉处理采用历史长度为10的GRU网络，其隐藏层维度为256。特别值得注意的是，我们对不同传感器数据采用了差异化的归一化方式：

这种处理方式在消融实验中显示出比统一归一化更好的训练稳定性。在踏脚石任务中，差异化归一化使训练曲线方差降低58%。

给定世界坐标系中的落脚点p_i=(x_i,y_i,z_i)，其转换为极坐标的详细过程为：

这种表示的关键优势在于：

PAS的退火策略采用分段线性调度：

这种设计基于以下观察：

我们在消融实验中发现，完全移除PAS会导致训练初期崩溃概率达73%，而最优退火策略能将其控制在12%以下。

PUMA采用多组分奖励设计，每个组分都有明确的物理意义：

实验表明，这种组合奖励相比单一奖励使训练速度提升40%。特别值得注意的是，稀疏奖励虽然出现频率低（约5%时间步），但对引导关键行为至关重要。

为确保仿真到现实的迁移能力，我们对以下参数进行随机化：

实测表明，充分的域随机化使现实环境中的成功率从52%提升到86%。

地形难度随训练进展逐步提升：

关键技巧是采用异步课程更新——不同环境实例根据当前策略在其上的表现独立调整难度。这避免了"最弱环节"拖累整体进展。

在Lite3机器人上部署时遇到的主要问题及解决方案：

深度图抖动问题：
- 现象：RealSense D435i在快速运动时产生运动模糊
- 解决：实现基于IMU的运动补偿算法
- 效果：特征点跟踪稳定性提升60%
计算延迟问题：
- 现象：RK3588上的推理时间波动导致控制不稳定
- 解决：引入双缓冲机制和固定频率调度
- 效果：控制周期抖动从±8ms降低到±2ms
地面打滑问题：
- 现象：特别是光滑墙面上的蹬踏失效
- 解决：在足端添加高摩擦系数橡胶贴片
- 效果：最大静摩擦力提升3倍