在模型训练领域,数据质量的重要性不言而喻。作为MiniMax推理团队的一员,我们在M2项目中对"什么构成了优质推理数据"这一问题进行了深入探索。与社区常见的聚焦于RL算法优化或特定领域(如数学、代码)可验证数据构建不同,我们采取了更通用的研究路径。
优质推理数据应当具备三个关键特征:高质量的思维链(CoT)和响应、适当的难度与多样性分布、以及合理的数据扩展策略。这三个维度共同决定了模型推理能力的上限。
高质量的思维链应当保持逻辑完整性而不含冗余。以指令跟随任务为例,过于简略的思维链会导致模型跳过关键步骤或产生过度自信,这对模型最终性能和能力泛化造成显著损害。我们通过实验发现,一个理想的思维链应该:
在实际操作中,我们开发了一套思维链评估标准:
大多数开源工作为了在排行榜上取得更好成绩,会过度拟合某些基准测试的格式模式。虽然这对单一数据方向有效,但对通用模型的能力泛化造成严重阻碍。我们在数据合成时特别引入了格式多样性,在多方向融合实验中观察到显著收益。
响应多样性建设的关键策略包括:
对于思维链和响应中的潜在问题案例(如幻觉、指令跟随失败、逻辑错误),我们采用规则+LLM作为评判者的方式进行数据清洗。通过持续迭代这种错位消除流程,我们越来越确信:每个不良案例都有其对应的脏训练数据,数据质量的提升必然会反映在模型性能上。
我们的清洗流程包含以下关键步骤:
重要提示:数据清洗不是一次性工作,而应该是一个随着模型表现不断调整的动态过程。我们建议至少每周进行一次全面的数据质量审查。
与社区许多讨论一致,我们的实验也发现数学和代码数据对提升推理能力至关重要。这两类数据带来的推理能力往往能惠及所有任务,如STEM和指令跟随(IF)。数学数据培养了模型的精确计算和逻辑推导能力,而代码数据则强化了结构化思维和问题分解能力。
数学数据应包含:
代码数据应覆盖:
我们也发现需要足够多样的数据来覆盖更多领域,如逻辑推理、科学、指令跟随和开放式创意任务。不同领域的任务具有不同的思维范式,推理的多样性是能力泛化的基础。
我们建议的领域分布比例:
在实验中我们发现,更困难、更复杂的查询对模型训练更有效。我们基于通过率(对可验证任务)或复杂度评分(对不可验证任务)来调整数据分布。
难度调控的具体实施方法:
当数据质量和多样性达到标准后,增加数据规模持续带来显著收益。无论是增加查询数量、进行1Q-multiple-A(一个问题多个回答)、多轮次训练,还是混合不同方向的数据以带来更多训练步数,模型都能稳步提升。
我们的扩展策略包括:
在实践中,数据扩展是高度工程化的问题。我们尝试基于任务特征整合所有数据,将其分为两个数据处理管道:可验证与不可验证,用于自动化数据合成和处理。
可验证管道特点:
不可验证管道特点:
这套系统极大地提升了团队协作效率,确保了数据输出的一致性。值得一提的是,我们的推理团队几乎全部由实习生组成,而这套数据管道有效地支撑了团队的运作。
我们将继续深入两个方向的研究。其一是复合能力,如知识+推理,以及Agent场景中工具对推理任务的增强。复合能力的培养需要:
另一个方向是如何整合可验证与不可验证任务,如跨领域思维链的融合和推理能力的泛化,以及训练方法的统一。这涉及到:
在实践过程中,我们发现团队建设与技术进步同等重要。一个高效的协作机制和清晰的知识管理体系,往往能成倍提升研究效率。我们持续优化内部工作流程,包括:
对于希望提升模型推理能力的团队,我的个人建议是从小规模高质量数据集开始,建立严格的数据评估标准,然后再逐步扩展。在数据质量与数量之间,永远优先考虑质量。同时,保持对模型表现的持续监控,建立数据质量与模型性能的反馈循环,这是确保长期进步的关键机制。