2026年2月12日,上海人工智能公司MiniMax在港股上市仅一个月后,发布了其最新的大语言模型MiniMax-M2.5。这个2300亿参数的混合专家模型(MoE)在多个基准测试中表现惊艳,同时保持了极低的运行成本——每小时仅需1美元的持续运营费用。
M2.5是M2系列的迭代升级版,延续了相同的架构设计:一个总参数2300亿、每次前向传播仅激活100亿参数的混合专家模型。这种设计使其在保持强大性能的同时,大幅降低了计算资源需求。作为对比:
模型提供两种API版本:
提示:M2.5的定价策略极具竞争力。以Claude Opus 4.6为例,其收费为输入$5/M、输出$25/M,是M2.5的5-10倍。
在多项关键测试中,M2.5表现突出:
特别值得注意的是,M2.5在Multi-SWE-Bench(多语言编码任务测试)中以51.3%的成绩超越了Claude Opus 4.6的50.3%。这得益于其对10+编程语言的支持,包括Python、Go、C、C++、TypeScript、Rust等。
在BFCL多轮对话测试中,M2.5以76.8%的成绩领先Opus 4.6超过13个百分点,相比前代M2.1提升了39.4个百分点。OpenHands独立评估将其列为总排名第四,仅次于Claude Opus 4.6、Claude Opus 4.5和GPT-5.2 Codex。
M2.5的突破性表现主要归功于MiniMax自主研发的强化学习框架Forge。这个"面向智能体的原生RL框架"采用了多项创新技术:
Clipped Importance Sampling Policy Optimization(CISPO)是MiniMax自研的强化学习算法。与传统的PPO/GRPO不同,CISPO对重要性采样权重进行裁剪,而非直接裁剪token更新。这使得所有token都能参与梯度计算,包括那些对维持模型熵至关重要的低概率token。
在Qwen2.5-32B上的对照实验中,CISPO相比字节跳动的DAPO算法实现了2倍的训练加速。
为了解决智能体rollout过程中固有的序列性问题,Forge框架采用了:
据称,这种组合实现了相比传统方法约40倍的训练速度提升。
长轨迹任务中的信用分配一直是个难题。Forge引入了:
MiniMax工程师Olive Song透露,M2.5的完整训练周期仅约两个月。作为参考,M1模型在512块H800 GPU上完成RL训练仅需三周,租赁成本约53.47万美元。
M2.5展现出独特的"先规划后编码"行为模式。在解决复杂问题时,它会主动分解任务、制定规范,再进行具体实现。这种策略性行为带来了显著的token效率提升:
除了编程能力,M2.5特别强化了对Office文档(Word、Excel、PPT)的处理能力。MiniMax内部开发的GDPval-MM基准测试显示,M2.5对主流模型的平均胜率达到59.0%。
MiniMax还推出了面向消费者的MiniMax Agent平台,用户已创建超过10,000个"专家"(专用智能体配置)。
M2.5最引人注目的特点之一是其极低的运营成本。按照官方数据:
然而,早期用户报告指出,M2.5虽然强大,但偶尔会出现:
注意:对于生产环境的关键任务,建议进行充分测试评估,或考虑采用M2.5与更高阶模型组合的方案。
MiniMax声称已"完全开源"M2.5的权重(截至发稿时尚未在Hugging Face发布)。对于本地部署,官方推荐使用:
由于仅激活100亿参数,M2.5的推理资源需求远低于同级别能力的其他模型。
MiniMax计划发布更多关于Forge框架和RL扩展规律的详细技术博客。关键待解问题包括:
虽然编码领域的竞争已白热化,但GDPval和办公生产力能力的差异化可能成为MiniMax的重要突破口。
基于早期采用者的反馈,以下建议可能有助于更好地利用M2.5:
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| 输出不一致 | 温度参数过高 | 降低温度至0.3以下 |
| 文档格式错误 | 提示词不明确 | 提供更详细的格式示例 |
| 代码逻辑缺陷 | 上下文不足 | 增加问题背景说明 |
| 响应速度慢 | 网络延迟 | 检查API端点位置 |
在实际使用中,我发现M2.5特别适合以下场景:
它的成本优势使得中小团队也能负担前沿AI能力,这在以前是不可想象的。不过对于企业级关键应用,建议建立完善的质量检查流程,或考虑将其作为更大解决方案中的一个组件。