Apriel-1.5-15B-Thinker：高效多模态推理模型的技术突破

露克

1. 项目概述：Apriel-1.5-15B-Thinker的多模态推理革新

在当今人工智能领域，模型规模的膨胀已成为一种普遍现象。从百亿到万亿参数，各大科技公司似乎陷入了一场无休止的"参数竞赛"。然而，ServiceNow研究院的SLAM实验室却选择了一条截然不同的道路——他们最新发布的Apriel-1.5-15B-Thinker证明：通过精心设计的训练策略，15B参数的紧凑模型同样能够实现前沿水平的多模态推理能力。

这个开源模型基于Pixtral-12B架构，通过创新的三阶段训练方法实现了性能突破。第一阶段采用深度扩展技术，在不从头预训练的情况下扩展模型的推理能力；第二阶段通过分阶段持续预训练，先培养基础文本和视觉理解能力，再通过针对性合成数据增强视觉推理；第三阶段则专注于高质量的有监督微调，使用包含明确推理轨迹的精选指令-响应对。特别值得注意的是，该模型在没有使用强化学习或偏好优化的情况下就取得了具有竞争力的结果，这凸显了其数据为中心的持续预训练方法的有效性。

关键突破：在Artificial Analysis Intelligence Index上获得52分，与DeepSeek-R1-0528持平，但所需计算资源显著减少。在十项图像基准测试中，其平均表现仅比Gemini-2.5-Flash和Claude Sonnet-3.7低5分——这对于一个能在单GPU上部署的模型而言是重大成就。

2. 架构设计与模型扩展策略

2.1 基础模型选择

研究团队选择Pixtral-12B-Base-2409作为基础模型，这是一个遵循LLaVA架构的多模态模型，由视觉编码器通过两层全连接投影网络连接到多模态解码器组成。这一选择基于几个关键考量：

计算效率：Pixtral已经在多模态任务中展现出良好的性能效率平衡
架构兼容性：其模块化设计便于后续的深度扩展
开源生态：完善的工具链支持有利于社区采用和后续开发

2.2 深度扩展技术详解

深度扩展是本项目的核心创新之一，其具体实施包含三个关键步骤：

解码器扩展：
- 将隐藏层数从40增加到48
- 使用混合数据训练：50%作为回放数据，50%来自多样化领域
- 训练数据包括高质量网页内容、技术文献、数学问题集、编程代码和StackExchange讨论
投影网络重新对齐：
- 训练数据来自图像描述数据集、多模态指令-响应对和文档理解场景
- 此阶段冻结视觉编码器和解码器，仅训练投影网络
- 采用8192的序列长度(带序列打包)和5e-5的学习率(线性衰减)
检查点平均策略：
- 从深度扩展阶段的六个等距中间检查点平均权重
- 投影网络重新对齐后的最终检查点用于后续训练阶段

这种分阶段的扩展策略确保了模型容量的平稳增长，同时避免了从头预训练的巨大计算成本。在实际部署中，这种方法的另一个优势是保持了模型的单GPU兼容性——扩展后的15B参数模型仍然可以在高端消费级GPU(如RTX 4090)上高效运行。

3. 分阶段持续预训练(CPT)方法论

3.1 第一阶段：基础推理与多模态能力培养

第一阶段的CPT旨在建立模型的文本推理和基础视觉理解能力。其数据构成经过精心设计：

50%纯文本token：覆盖数学和科学推理、编码任务和常识
20%回放token：来自解码器扩展阶段的数据
30%多模态token：包括文档理解、图表理解和推理、图像描述、长文本图像描述、OCR相关任务以及视觉上下文中的数学和逻辑问题推理

训练配置方面，此阶段解冻所有组件(视觉编码器、投影网络和解码器)，采用32768的超长序列(带打包)和5e-5的学习率(余弦衰减，10%预热)。与常见做法不同，研究团队选择在所有序列token上计算损失，而非仅响应部分，这有助于建立更全面的语言理解。

3.2 第二阶段：针对性视觉推理增强

第二阶段CPT专注于提升视觉推理能力，采用创新的合成数据生成管道。该管道将原始图像转化为多个任务中心的训练样本，构建定制课程，重点培养：

空间结构理解：
- 通过图像重建任务(区域掩码)学习整体场景先验和部分-整体推理
- 视觉匹配任务(锚点与候选匹配)提升对应关系和细粒度辨别能力
组合性理解：
- 对象检测任务强化 grounding 和定位能力
- 计数任务增强对特定视觉元素的识别和区分能力
细粒度感知：
- 通过难度控制的增强技术建立稳健的空间推理
- 针对不同任务调制数据难度，确保广泛适用性

技术实现上，此阶段冻结视觉编码器，仅更新投影网络和解码器。采用16384序列长度和1e-5的学习率(余弦衰减，10%预热)，且仅对响应部分计算损失。这种针对性训练带来了显著提升——在MathVerse(Vision Dominant)上获得+9.65分的改进，CharXiv(Descriptive)+5.98分，AI2D Test+3.7分。

4. 高质量监督微调(SFT)实践

4.1 数据筛选与验证流程

SFT阶段的数据质量直接决定最终模型性能。团队建立了严格的多级过滤流程：

去重与内容过滤：
- 基于语义相似度的去重确保数据多样性
- 移除不安全或不适当内容的基础过滤
质量启发式过滤：
- 基于响应长度、信息密度等指标的自动筛选
- 针对低质量样本的模式识别与排除
验证机制：
- 对可验证领域(数学、编码、科学)采用执行验证
- LLM-as-Judge评估用于主观性内容
- 格式检查确保结构化输出(JSON/XML)的正确性
净化处理：
- 应用统一聊天模板规范化所有样本
- 去除与基准测试重叠的样本，防止数据泄露

4.2 训练策略与序列长度优化

SFT采用分层训练策略，最大化有限计算资源的效用：

基础SFT：
- 4个epoch，32768序列长度
- 1e-5学习率(余弦衰减)
- 全量数据集训练
增强训练：
- 分层训练：使用25%分层子集再训练4个epoch
- 长序列训练：49152长度，混合长短序列样本
- 最终通过权重平均合并两个增强模型

这种策略在不过度增加计算成本的情况下，显著提升了模型的长上下文处理能力。实际测试表明，49152长度的序列处理能力使模型能够处理复杂的多页文档分析和长视频理解任务。

5. 评估体系与性能分析

5.1 文本推理能力评估

团队采用Artificial Analysis Intelligence Index作为核心评估标准，该指数聚合了十个异构基准测试：

学科知识：
- MMLU-Pro：多领域高级知识与推理
- GPQA Diamond：科学与工程研究生级问题解决
专业能力：
- LiveCodeBench：代码生成功能正确性
- SciCode：科学计算与推理任务
- TerminalBench Hard：真实Linux shell端到端任务
核心推理：
- AIME 2025：竞赛级数学
- IFBench：指令遵循与合规性
- AA-LCR：长上下文推理

Apriel-1.5-15B-Thinker在这一综合评估中获得52分，超越了许多更大的开源系统，如Llama Nemotron Super 49B v1.5(45)和gpt-oss-20B(43)，与DeepSeek-R1-0528和Gemini-2.5-Flash表现相当。特别值得注意的是，在AIME2025上达到87%准确率，IF-Bench 62%，τ2Bench(Telecom)68%，展现了出色的数学推理、指令遵循和领域特定问题解决能力。

5.2 多模态能力评估

视觉评估采用VLMEvalKit工具包，覆盖多个关键维度：

通用多模态推理：
- MMMU：评估视觉知识与推理
- MMStar：必须依赖视觉解决的任务
视觉逻辑：
- LogicVista：视觉上下文中的多模态逻辑推理
数学视觉：
- MathVista：结合视觉与数学的挑战
- MathVerse：跨模态信息内容的数学能力
文档理解：
- CharXiv：图表描述与推理问答
- AI2D：图表理解

评估结果显示，Apriel在文档中心任务上表现突出——CharXiv描述性任务达到88.2%(仅次于Claude和GPT-5 High)，AI2D 81.8%。虽然纯视觉推理任务(如MMMU-PRO Vision 48.21%)仍有提升空间，但其在文本-视觉结合任务上的优势使其成为文档分析、图表理解等实际应用的理想选择。