在当今人工智能领域,模型规模的膨胀已成为一种普遍现象。从百亿到万亿参数,各大科技公司似乎陷入了一场无休止的"参数竞赛"。然而,ServiceNow研究院的SLAM实验室却选择了一条截然不同的道路——他们最新发布的Apriel-1.5-15B-Thinker证明:通过精心设计的训练策略,15B参数的紧凑模型同样能够实现前沿水平的多模态推理能力。
这个开源模型基于Pixtral-12B架构,通过创新的三阶段训练方法实现了性能突破。第一阶段采用深度扩展技术,在不从头预训练的情况下扩展模型的推理能力;第二阶段通过分阶段持续预训练,先培养基础文本和视觉理解能力,再通过针对性合成数据增强视觉推理;第三阶段则专注于高质量的有监督微调,使用包含明确推理轨迹的精选指令-响应对。特别值得注意的是,该模型在没有使用强化学习或偏好优化的情况下就取得了具有竞争力的结果,这凸显了其数据为中心的持续预训练方法的有效性。
关键突破:在Artificial Analysis Intelligence Index上获得52分,与DeepSeek-R1-0528持平,但所需计算资源显著减少。在十项图像基准测试中,其平均表现仅比Gemini-2.5-Flash和Claude Sonnet-3.7低5分——这对于一个能在单GPU上部署的模型而言是重大成就。
研究团队选择Pixtral-12B-Base-2409作为基础模型,这是一个遵循LLaVA架构的多模态模型,由视觉编码器通过两层全连接投影网络连接到多模态解码器组成。这一选择基于几个关键考量:
深度扩展是本项目的核心创新之一,其具体实施包含三个关键步骤:
解码器扩展:
投影网络重新对齐:
检查点平均策略:
这种分阶段的扩展策略确保了模型容量的平稳增长,同时避免了从头预训练的巨大计算成本。在实际部署中,这种方法的另一个优势是保持了模型的单GPU兼容性——扩展后的15B参数模型仍然可以在高端消费级GPU(如RTX 4090)上高效运行。
第一阶段的CPT旨在建立模型的文本推理和基础视觉理解能力。其数据构成经过精心设计:
训练配置方面,此阶段解冻所有组件(视觉编码器、投影网络和解码器),采用32768的超长序列(带打包)和5e-5的学习率(余弦衰减,10%预热)。与常见做法不同,研究团队选择在所有序列token上计算损失,而非仅响应部分,这有助于建立更全面的语言理解。
第二阶段CPT专注于提升视觉推理能力,采用创新的合成数据生成管道。该管道将原始图像转化为多个任务中心的训练样本,构建定制课程,重点培养:
空间结构理解:
组合性理解:
细粒度感知:
技术实现上,此阶段冻结视觉编码器,仅更新投影网络和解码器。采用16384序列长度和1e-5的学习率(余弦衰减,10%预热),且仅对响应部分计算损失。这种针对性训练带来了显著提升——在MathVerse(Vision Dominant)上获得+9.65分的改进,CharXiv(Descriptive)+5.98分,AI2D Test+3.7分。
SFT阶段的数据质量直接决定最终模型性能。团队建立了严格的多级过滤流程:
去重与内容过滤:
质量启发式过滤:
验证机制:
净化处理:
SFT采用分层训练策略,最大化有限计算资源的效用:
基础SFT:
增强训练:
这种策略在不过度增加计算成本的情况下,显著提升了模型的长上下文处理能力。实际测试表明,49152长度的序列处理能力使模型能够处理复杂的多页文档分析和长视频理解任务。
团队采用Artificial Analysis Intelligence Index作为核心评估标准,该指数聚合了十个异构基准测试:
学科知识:
专业能力:
核心推理:
Apriel-1.5-15B-Thinker在这一综合评估中获得52分,超越了许多更大的开源系统,如Llama Nemotron Super 49B v1.5(45)和gpt-oss-20B(43),与DeepSeek-R1-0528和Gemini-2.5-Flash表现相当。特别值得注意的是,在AIME2025上达到87%准确率,IF-Bench 62%,τ2Bench(Telecom)68%,展现了出色的数学推理、指令遵循和领域特定问题解决能力。
视觉评估采用VLMEvalKit工具包,覆盖多个关键维度:
通用多模态推理:
视觉逻辑:
数学视觉:
文档理解:
评估结果显示,Apriel在文档中心任务上表现突出——CharXiv描述性任务达到88.2%(仅次于Claude和GPT-5 High),AI2D 81.8%。虽然纯视觉推理任务(如MMMU-PRO Vision 48.21%)仍有提升空间,但其在文本-视觉结合任务上的优势使其成为文档分析、图表理解等实际应用的理想选择。
Apriel-1.5-15B-Thinker的设计充分考虑了实际部署需求,其关键优化包括:
内存优化:
延迟优化:
吞吐量优化:
实测在NVIDIA RTX 4090上,模型能够以15-20 token/秒的速度生成响应,完全满足大多数企业应用的实时性要求。对于需要处理图像的任务,典型的文档图像(如PDF扫描页)处理延迟在300-500ms范围内。
基于其能力特点,Apriel特别适合以下场景:
智能文档处理:
教育辅助:
商业智能:
在隐私敏感行业(如医疗、金融),模型的单GPU可部署性使其能够满足数据不出本地的基础架构要求,这是许多大型云端API无法提供的保障。
尽管取得了显著成果,Apriel-1.5-15B-Thinker仍有明确的发展空间:
当前限制:
改进方向:
生态建设:
研究团队特别强调,未来工作将继续坚持"高效训练"的核心哲学——通过数据质量和训练策略的创新,而非单纯扩大规模,来推动模型能力的提升。这种务实的方法论对资源有限的研究机构和企业尤其具有借鉴价值。