Gymnasium强化学习环境：从入门到自定义开发

Niujiubaba

1. 为什么选择Gymnasium？强化学习标准化的里程碑

2016年那个夏天，我在实验室第一次接触OpenAI Gym时的震撼至今难忘。当时我们团队正在研究DQN算法，光是搭建一个简单的CartPole环境就耗费了两周时间——需要处理物理引擎参数、状态空间定义、奖励函数设计等各种底层细节。直到发现Gym这个宝藏库，一行env = gym.make('CartPole-v1')就解决了所有环境搭建问题，让我们能专注于算法本身的优化。

Gymnasium（原OpenAI Gym）之所以能成为强化学习领域的事实标准，关键在于它解决了三个核心痛点：

接口标准化：所有环境都遵循reset()、step()、render()的统一接口。这意味着你今天在CartPole上训练的算法，明天可以无缝迁移到Atari游戏上测试。
环境多样性：从简单的经典控制问题（如倒立摆）到复杂的物理仿真（如MuJoCo机器人控制），再到Atari像素游戏，覆盖了RL研究的各个难度层级。
可复现性：每个环境都有明确的版本控制（如CartPole-v1），确保不同研究者能在完全相同的条件下比较算法性能。

提示：2021年后OpenAI将Gym维护权移交给了Farama基金会，并更名为Gymnasium。新版本完全兼容旧版API，同时修复了许多历史遗留问题，建议新项目直接使用Gymnasium。

2. 环境搭建与基础配置

2.1 安装指南

我强烈建议使用conda创建独立的Python环境，避免依赖冲突。以下是经过实际验证的安装流程：

bash复制conda create -n rl_env python=3.10
conda activate rl_env
pip install gymnasium[all]

安装选项说明：

gymnasium：基础包，包含经典控制等基础环境
gymnasium[all]：完整版（推荐），包含Box2D、MuJoCo等所有扩展
gymnasium[atari]：仅安装Atari游戏环境

避坑提示：如果在Windows上安装Box2D环境遇到问题，可能需要先安装swig工具：conda install swig

2.2 验证安装

创建一个简单的CartPole环境测试安装是否成功：

python复制import gymnasium as gym

env = gym.make('CartPole-v1', render_mode='human')
observation, info = env.reset()

for _ in range(1000):
    action = env.action_space.sample()  # 随机动作
    observation, reward, terminated, truncated, info = env.step(action)
    
    if terminated or truncated:
        observation, info = env.reset()
        
env.close()

如果看到一个小车成功平衡了杆子（虽然动作是随机的），说明环境配置正确。

3. 核心API深度解析

3.1 环境生命周期管理

Gymnasium环境的典型使用流程遵循"创建->重置->交互->关闭"的模式：

python复制env = gym.make(...)       # 创建
obs, info = env.reset()   # 重置
while True:
    action = ...          # 算法决策
    obs, rew, term, trunc, info = env.step(action)  # 交互
    if term or trunc:     # 终止判断
        break
env.close()               # 关闭

关键方法说明：

reset()：返回初始观察值和信息字典
step(action)：执行动作，返回五元组：
- observation：新的状态
- reward：即时奖励
- terminated：是否达到终止状态（如游戏失败）
- truncated：是否因步数限制中断
- info：调试信息字典

经验之谈：新版Gymnasium将原来的done拆分为terminated和truncated，能更精确地区分环境自然终止和人为限制终止。

3.2 空间(Space)系统

理解空间定义是设计RL算法的关键前提。Gymnasium提供了完整的空间类型体系：

空间类型	说明	示例环境
`Box`	连续值的n维空间	CartPole（状态空间）
`Discrete`	离散数字空间	FrozenLake（动作空间）
`Dict`	空间字典组合	复杂多模态观察
`Tuple`	空间元组组合	多智能体环境

查看环境空间定义的典型方法：

python复制env = gym.make('CartPole-v1')
print("Observation space:", env.observation_space)
print("Action space:", env.action_space)

输出示例：

code复制Observation space: Box([-4.8 -inf -0.42 -inf], [4.8 inf 0.42 inf], (4,), float32)
Action space: Discrete(2)

4. 内置环境全景指南

4.1 经典控制套件

最适合入门的系列，包含：

CartPole-v1：平衡杆经典问题（4维状态，2个动作）
MountainCar-v0：动力小车爬山（2维状态，3个动作）
Pendulum-v1：无摩擦钟摆（3维状态，连续动作）

以CartPole为例，其状态空间包含：

小车位置（-4.8到4.8）
小车速度（无界）
杆角度（±0.42弧度≈24°）
杆角速度（无界）

4.2 Box2D物理环境

需要额外安装的2D物理引擎环境：

BipedalWalker-v3：双足机器人行走
LunarLander-v2：月球着陆器控制

我在调教BipedalWalker时发现，其观察空间包含28个维度（包括关节角度、速度等），动作空间是4个连续值（关节扭矩），比经典控制问题复杂一个数量级。

4.3 Atari游戏环境

包含57个经典Atari游戏的像素级环境：

python复制env = gym.make('ALE/Pong-v5', 
               render_mode='rgb_array',
               frameskip=4)  # 每帧重复动作次数

特殊设置建议：

使用frameskip参数控制动作频率
开启full_action_space=True获得完整18个按钮的动作空间
建议配合MaxAndSkipEnv等Wrapper使用

5. 环境包装器(Wrappers)高级技巧

Wrappers是Gymnasium最强大的功能之一，可以在不修改环境源码的情况下改变其行为。以下是几个实用Wrapper示例：

5.1 帧堆叠Wrapper

处理像素环境时的标准技巧：

python复制from gymnasium.wrappers import FrameStack

env = gym.make('Pong-v4')
env = FrameStack(env, num_stack=4)  # 堆叠最后4帧

5.2 奖励裁剪Wrapper

防止奖励数值过大导致训练不稳定：

python复制from gymnasium.wrappers import TransformReward

env = TransformReward(env, lambda r: np.clip(r, -10, 10))

5.3 自定义Wrapper模板

创建记录episode长度的Wrapper：

python复制class EpisodeLengthWrapper(gym.Wrapper):
    def __init__(self, env):
        super().__init__(env)
        self.lengths = []
        
    def step(self, action):
        obs, rew, term, trunc, info = self.env.step(action)
        if term or trunc:
            self.lengths.append(info.get('episode_length', 0))
        return obs, rew, term, trunc, info

6. 自定义环境开发实战

当内置环境无法满足需求时，就需要开发自定义环境。以下是创建网格世界(GridWorld)的完整示例：

6.1 定义状态和动作空间

python复制import gymnasium as gym
from gymnasium import spaces

class GridWorldEnv(gym.Env):
    def __init__(self, size=5):
        self.size = size
        # 动作空间：上下左右
        self.action_space = spaces.Discrete(4)
        # 观察空间：智能体和目标的位置
        self.observation_space = spaces.Dict({
            "agent": spaces.Box(0, size-1, shape=(2,), dtype=int),
            "target": spaces.Box(0, size-1, shape=(2,), dtype=int)
        })

6.2 实现核心方法

python复制    def reset(self, seed=None):
        super().reset(seed=seed)
        # 随机初始化智能体和目标位置
        self._agent_pos = self.np_random.integers(0, self.size, size=2)
        self._target_pos = self._agent_pos
        while np.array_equal(self._target_pos, self._agent_pos):
            self._target_pos = self.np_random.integers(0, self.size, size=2)
        return self._get_obs(), {}
    
    def step(self, action):
        # 移动智能体
        if action == 0:  # 右
            self._agent_pos[0] = min(self._agent_pos[0] + 1, self.size - 1)
        elif action == 1:  # 上
            self._agent_pos[1] = min(self._agent_pos[1] + 1, self.size - 1)
        # ... 其他动作类似
        
        # 计算奖励
        terminated = np.array_equal(self._agent_pos, self._target_pos)
        reward = 1 if terminated else 0
        return self._get_obs(), reward, terminated, False, {}

6.3 添加渲染支持

python复制    def render(self):
        grid = np.full((self.size, self.size), '.', dtype=str)
        grid[tuple(self._agent_pos)] = 'A'
        grid[tuple(self._target_pos)] = 'T'
        print('\n'.join(' '.join(row) for row in grid))

7. 与主流算法库集成

7.1 配合Stable Baselines3使用

python复制from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env

# 创建向量化环境（并行多个环境）
env = make_vec_env('CartPole-v1', n_envs=4)

# 创建PPO模型
model = PPO("MlpPolicy", env, verbose=1)

# 训练
model.learn(total_timesteps=100000)

# 测试
obs = env.reset()
for _ in range(1000):
    action, _states = model.predict(obs)
    obs, rewards, dones, info = env.step(action)
    env.render()

7.2 配合Ray RLlib使用

python复制from ray import tune
from ray.rllib.algorithms.ppo import PPOConfig

config = (PPOConfig()
          .environment("CartPole-v1")
          .framework("torch")
          .training(gamma=0.99, lr=0.001)
          .resources(num_gpus=0))

tune.run(config, stop={"episode_reward_mean": 200})