两个月前,我们开源了首个多模态推理模型Kimi-VL-A3B-Thinking,今天很高兴向大家介绍它的升级版本——Kimi-VL-A3B-Thinking-2506。作为一名长期关注多模态AI发展的从业者,我第一时间对这个新版本进行了全面测试,发现它在多个关键维度都有显著提升。
这个模型最吸引我的地方在于它实现了"思考更聪明,消耗更少"的目标。在保持强大推理能力的同时,平均思考长度减少了20%,这在处理长文档或复杂视频分析时能显著降低计算成本。对于需要部署在生产环境中的开发者来说,这种效率提升意味着更低的运营成本和更快的响应速度。
提示:如果你正在寻找一个既能处理复杂推理任务,又对计算资源相对友好的多模态模型,2506版本值得优先考虑。
在数学推理方面,新版本在MathVision基准测试上达到了56.9分(提升20.1分),MathVista达到80.1分(提升8.4分)。这些进步主要来自三个方面:
以一个实际测试为例,当面对"四个数字1,3,4,5,7中选出四个填入□+□=□+□,哪个数字未被使用?"这样的问题时,模型不仅给出正确答案(4),还详细展示了所有可能的组合验证过程。
2506版本在保持强大推理能力的同时,视觉理解能力也达到了新高度:
这些成绩甚至超过了专精视觉的Kimi-VL-A3B-Instruct模型。在实际测试中,模型能准确识别高分辨率图像中的细节,比如在一张1792x1792像素的照片中,它能精确指出儿童鞋子的颜色(绿色)和连衣裙的颜色(蓝色),并以JSON格式规范输出。
视频理解是2506版本的另一大亮点。它在VideoMMMU基准上达到65.2分(开源模型中的新纪录),在Video-MME上也保持71.9分的优秀表现。我在测试中使用了一段3分钟的运动视频,模型成功将其分解为6个场景,每个场景都准确标注了起止时间,并提供了细致的描述:
这种细粒度的视频理解能力,对于内容审核、视频摘要等应用场景极具价值。
新版本支持单张图像最高320万像素(1792x1792),是前代的4倍。这一提升带来了两个显著优势:
技术实现上,团队采用了分块处理策略配合全局注意力机制,在保持计算效率的同时实现了高分辨率支持。
基于实测经验,我推荐以下部署配置:
bash复制MAX_JOBS=4 pip install vllm==0.9.1 blobfile flash-attn --no-build-isolation
安装flash-attn至关重要,能有效避免CUDA内存溢出。初始化代码如下:
python复制from transformers import AutoProcessor
from vllm import LLM, SamplingParams
model_path = "moonshotai/Kimi-VL-A3B-Thinking-2506"
llm = LLM(
model_path,
trust_remote_code=True,
max_num_seqs=8,
max_model_len=131072,
limit_mm_per_prompt={"image":256}
)
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
对于不同的任务类型,建议采用不同的温度参数:
在实际使用中,我总结了几个提升效率的技巧:
python复制def extract_thinking_and_summary(text: str, bot: str="◁think▷", eot: str="◁/think▷") -> str:
if bot in text and eot not in text:
return ""
if eot in text:
return text[text.index(bot) + len(bot):text.index(eot)].strip(), text[text.index(eot) + len(eot):].strip()
return "", text
python复制import fitz
def download_arxiv_to_multi_image(pdf_url):
doc = fitz.open(pdf_url)
all_input_images = []
for page_num in range(len(doc)):
page = doc.load_page(page_num)
pix = page.get_pixmap()
image = Image.open(io.BytesIO(pix.tobytes("png")))
all_input_images.append(image)
return all_input_images
python复制def get_video_frames(video_path, sample_fps=1, sample_frames=-1):
vr = decord.VideoReader(video_path)
if sample_fps > 0:
fps = vr.get_avg_fps()
video_duration = int(len(vr) / fps)
sample_frames = int(video_duration * sample_fps) + 1
frame_inds = np.linspace(0, len(vr) - 1, sample_frames).round().astype(int)
frames = vr.get_batch(frame_inds).asnumpy()
timestamps = (frame_inds / fps).astype(np.int32)
return frames, timestamps
在GUI自动化测试中,2506版本表现出色。当给定屏幕截图和指令"仔细检查截图,点击论文提交者的个人资料"时,模型能准确定位UI元素位置,并生成可执行的pyautogui代码:
python复制## Action:
Click into profile of the paper submitter.
## Code:
pyautogui.click(x=0.204, y=0.149)
关键点在于:
处理科研论文时,模型能准确提取关键信息。例如给定一篇arXiv论文,询问"这个基准测试的state-of-the-art是谁?分析其表现",模型不仅能正确识别出Gemini-2.5-Pro(准确率56.0%),还能深入分析其优势:
"Gemini-2.5-Pro的思考增强设计使其能有效处理具有精细视觉感知和更高推理复杂度的挑战性任务,明显优于其他模型(如GPT-4o仅6.9%)。"
这种深度理解能力对文献综述、技术调研等场景帮助很大。
面对包含多个模型的精度对比柱状图,模型能准确回答"Tiny类别中哪个模型的Semantic Tag准确率最高?"这类问题。其思考过程展示出系统的分析方法:
对于数学题如"用1,3,4,5,7中的四个数字填入□+□=□+□,哪个数字未被使用?",模型会列举所有可能组合:
code复制1 + 7 = 8
3 + 5 = 8
未使用数字:4
这种结构化的问题解决方式,使其在教育辅助领域也有很大潜力。
在实际部署中,我们遇到过几个典型问题:
内存不足错误:
长文本处理不完整:
多模态输入失衡:
通过大量测试,我们总结出以下提升精度的经验:
图像预处理:
提示词工程:
温度参数调节:
以下是我们团队在不同硬件上的基准测试结果:
| 任务类型 | GPU型号 | 输入尺寸 | 延迟(秒) | 显存占用(GB) |
|---|---|---|---|---|
| 图像理解 | A100-40G | 1024x1024 | 1.2 | 12.3 |
| 视频分析 | A100-80G | 30帧@720p | 8.7 | 42.1 |
| 长文档处理 | RTX 4090 | 20页PDF | 15.4 | 22.8 |
| OS-Agent | T4-16G | 1920x1080截图 | 2.3 | 9.5 |
这些数据可作为部署时的参考基准。对于实时性要求高的场景,建议使用A100或更高性能GPU。
虽然2506版本已经取得显著进步,但从实际应用角度看,仍有提升空间:
社区生态建设方面,建议关注:
我在实际项目中发现,结合LoRA等技术对特定领域(如医疗影像、工业检测)进行微调,能进一步提升模型在专业场景的表现。期待未来能看到更多社区驱动的优秀案例和实践分享。