MiniMax-M2.5：低成本高性能大语言模型解析

楚沐风

1. MiniMax-M2.5：1美元/小时的前沿模型解析

2026年2月12日，上海人工智能公司MiniMax在港股上市仅一个月后，发布了其最新的大语言模型MiniMax-M2.5。这个2300亿参数的混合专家模型(MoE)在多个基准测试中表现惊艳，同时保持了极低的运行成本——每小时仅需1美元的持续运营费用。

1.1 模型架构与技术规格

M2.5是M2系列的迭代升级版，延续了相同的架构设计：一个总参数2300亿、每次前向传播仅激活100亿参数的混合专家模型。这种设计使其在保持强大性能的同时，大幅降低了计算资源需求。作为对比：

GLM-5：总参数7440亿，激活400亿
DeepSeek V3/R1：总参数6850亿，激活370亿
Qwen3-235B：总参数2350亿，激活220亿

模型提供两种API版本：

M2.5-Lightning：100 tokens/秒，输入$0.30/M，输出$2.40/M
M2.5-Standard：50 tokens/秒，输入$0.15/M，输出$1.20/M

提示：M2.5的定价策略极具竞争力。以Claude Opus 4.6为例，其收费为输入$5/M、输出$25/M，是M2.5的5-10倍。

1.2 性能基准测试

在多项关键测试中，M2.5表现突出：

SWE-Bench Verified：80.2%
Multi-SWE-Bench：51.3%（第一名）
BrowseComp：76.3%

特别值得注意的是，M2.5在Multi-SWE-Bench（多语言编码任务测试）中以51.3%的成绩超越了Claude Opus 4.6的50.3%。这得益于其对10+编程语言的支持，包括Python、Go、C、C++、TypeScript、Rust等。

在BFCL多轮对话测试中，M2.5以76.8%的成绩领先Opus 4.6超过13个百分点，相比前代M2.1提升了39.4个百分点。OpenHands独立评估将其列为总排名第四，仅次于Claude Opus 4.6、Claude Opus 4.5和GPT-5.2 Codex。

2. 核心技术：大规模强化学习框架Forge

M2.5的突破性表现主要归功于MiniMax自主研发的强化学习框架Forge。这个"面向智能体的原生RL框架"采用了多项创新技术：

2.1 CISPO算法

Clipped Importance Sampling Policy Optimization（CISPO）是MiniMax自研的强化学习算法。与传统的PPO/GRPO不同，CISPO对重要性采样权重进行裁剪，而非直接裁剪token更新。这使得所有token都能参与梯度计算，包括那些对维持模型熵至关重要的低概率token。

在Qwen2.5-32B上的对照实验中，CISPO相比字节跳动的DAPO算法实现了2倍的训练加速。

2.2 异步调度与树状样本合并

为了解决智能体rollout过程中固有的序列性问题，Forge框架采用了：

异步调度：优化GPU利用率
树状样本合并：平衡吞吐量与样本非策略性

据称，这种组合实现了相比传统方法约40倍的训练速度提升。

2.3 过程奖励机制

长轨迹任务中的信用分配一直是个难题。Forge引入了：

过程级奖励：监控整个生成过程的质量
任务完成时间奖励：鼓励模型寻找更快的解决方案

MiniMax工程师Olive Song透露，M2.5的完整训练周期仅约两个月。作为参考，M1模型在512块H800 GPU上完成RL训练仅需三周，租赁成本约53.47万美元。

3. 独特能力与商业应用

3.1 自动规划与规范编写

M2.5展现出独特的"先规划后编码"行为模式。在解决复杂问题时，它会主动分解任务、制定规范，再进行具体实现。这种策略性行为带来了显著的token效率提升：

SWE-Bench Verified任务：平均消耗3.52M tokens（M2.1为3.72M）

3.2 办公生产力套件支持

除了编程能力，M2.5特别强化了对Office文档（Word、Excel、PPT）的处理能力。MiniMax内部开发的GDPval-MM基准测试显示，M2.5对主流模型的平均胜率达到59.0%。

MiniMax还推出了面向消费者的MiniMax Agent平台，用户已创建超过10,000个"专家"（专用智能体配置）。

4. 成本效益分析与实际考量

M2.5最引人注目的特点之一是其极低的运营成本。按照官方数据：

持续运行成本：约1美元/小时（100 tokens/秒）
年度成本：4个M2.5实例全年运行仅需10,000美元

然而，早期用户报告指出，M2.5虽然强大，但偶尔会出现：

错误的分支推送
格式指令遗漏
解决方案不够稳定

注意：对于生产环境的关键任务，建议进行充分测试评估，或考虑采用M2.5与更高阶模型组合的方案。

5. 技术生态与资源获取

MiniMax声称已"完全开源"M2.5的权重（截至发稿时尚未在Hugging Face发布）。对于本地部署，官方推荐使用：

vLLM
SGLang

由于仅激活100亿参数，M2.5的推理资源需求远低于同级别能力的其他模型。

6. 未来展望

MiniMax计划发布更多关于Forge框架和RL扩展规律的详细技术博客。关键待解问题包括：

性能是否与环境数量呈线性扩展关系
是否存在收益递减点
在智能体RL领域是追赶者还是真正的创新者

虽然编码领域的竞争已白热化，但GDPval和办公生产力能力的差异化可能成为MiniMax的重要突破口。

7. 实操建议与经验分享

基于早期采用者的反馈，以下建议可能有助于更好地利用M2.5：

7.1 部署优化

批量处理请求：利用M2.5的高吞吐量特性，将小任务批量处理可显著降低成本
温度参数调整：对于确定性任务，降低温度值(0.2-0.5)可提高输出稳定性
结果验证机制：建议为关键操作添加自动化验证步骤

7.2 成本控制技巧

对非实时性任务，使用M2.5-Standard版本
设置API使用配额和警报
考虑混合使用M2.5和更小型专用模型

7.3 常见问题排查

问题现象	可能原因	解决方案
输出不一致	温度参数过高	降低温度至0.3以下
文档格式错误	提示词不明确	提供更详细的格式示例
代码逻辑缺陷	上下文不足	增加问题背景说明
响应速度慢	网络延迟	检查API端点位置