1. AI Agent横评背景与测试框架
最近半年,AI Agent领域呈现爆发式增长态势。作为大语言模型(LLM)之后最具潜力的技术方向,各类AI Agent产品如雨后春笋般涌现。这种现象背后反映的是行业对智能化应用的迫切需求——单纯的对话式AI已经不能满足复杂场景的需求,能够自主感知、决策和执行的智能体才是下一代AI产品的形态。
本次测试选取了5款具有代表性的通用型AI Agent产品:
- Genspark(综合性智能体平台)
- MiniMax Agent(专注多模态交互)
- Flowith Neo(强调深度分析与研究)
- Manus(平衡型解决方案)
- 扣子空间(轻量级快速响应)
测试框架设计遵循"黑盒评估"原则,即不关心内部实现机制,只关注最终输出质量。这种评估方式更贴近实际使用场景,因为普通用户通常不会(也不需要)了解Agent内部的技术细节。我们重点考察三个维度的能力:
- 任务拆解与执行效率:能否准确理解复杂指令并将其分解为可执行的子任务
- 多模态输出能力:处理文本、图表、图像等多种输出形式的质量
- 场景适应性:在不同领域(信息处理、规划决策、创意设计)的表现稳定性
2. 测试任务设计与评估标准
2.1 任务一:信息检索与整理
测试目标:评估Agent的信息收集、分析和呈现能力
具体任务:
code复制检索微信公众号平台2025年来的热门AI话题前5,并总结原因分别输出为pdf、图表和html格式
评估维度:
- 信息准确性:话题是否真实热门,分析是否合理
- 格式完整性:三种输出格式的质量
- 分析深度:对流行原因的解读是否透彻
技术难点:
- 需要理解"热门"的量化标准(阅读量?转发量?)
- 多格式输出要求系统具备强大的内容重构能力
- 原因分析需要展示逻辑推理链条
2.2 任务二:旅游规划
测试目标:测试逻辑严谨性和外部工具调用能力
具体任务:
code复制规划一个预算不超过3000元、4天3晚的成都旅游计划,必须包含川剧变脸、宽窄巷子和熊猫基地
评估维度:
- 预算控制:各项支出是否合理且总和≤3000元
- 行程合理性:景点间距离、游览时长、交通时间的匹配度
- 信息丰富度:是否提供实用细节(如交通方式、餐饮推荐)
技术难点:
- 需要实时获取地理位置、票价等动态数据
- 多约束条件(时间、预算、必去景点)的平衡
- 个性化推荐与标准化方案的结合
2.3 任务三:创意设计
测试目标:考察图像理解和空间感知能力
具体任务:
code复制根据提供的客厅照片,推荐合适的改造风格,并输出新风格的3D布置草图或改造建议图示
评估维度:
- 图像理解:是否准确识别原图的空间结构和现有元素
- 风格一致性:建议的改造方案是否保持空间布局
- 创意实用性:设计方案是否兼具美观性和可实施性
技术难点:
- 需要理解二维图像中的三维空间关系
- 风格建议需要考虑现有硬装条件的限制
- 输出视觉稿需要与文字描述高度匹配
3. 测试结果深度分析
3.1 信息检索任务表现对比
Genspark:
- 耗时:12分43秒
- 优势:HTML排版专业,采用分栏设计使信息层级清晰;图表类型丰富(柱状图、饼图、趋势图组合使用);PDF使用了颜色标记区分不同话题
- 不足:分析角度偏技术层面,缺乏商业视角
- 技术亮点:自动生成的数据看板包含交互元素(如可筛选的标签)
扣子空间:
- 耗时:10分15秒
- 优势:响应速度最快
- 不足:图表仅为简单表格;PDF缺乏排版设计;原因分析过于笼统
- 典型问题:对"分析原因"的理解停留在表面,没有深入挖掘各话题背后的驱动因素
Manus:
- 耗时:11分49秒
- 优势:话题热度对比直观;分析结构完整(现象+原因+案例)
- 不足:PDF版本丢失了图表,纯文本可读性下降
- 有趣发现:唯一采用网络关系图展示话题关联度的Agent
MiniMax Agent:
- 耗时:16分03秒
- 优势:话题覆盖面广
- 不足:图表美观度差;分析缺乏深度
- 典型输出:生成的内容带有明显模板痕迹,如频繁使用"综上所述""由此可见"等套路化表达
Flowith Neo:
- 耗时:19分27秒
- 优势:研究深度最佳,提供数据来源和案例佐证;新增话题关联度分析维度
- 不足:耗时最长;PDF版本未优化排版
- 技术亮点:独创的"话题影响力雷达图"直观展示各话题的多维度热度
操作建议:对于需要深度分析的场景,优先考虑Flowith Neo;追求效率时可选Genspark。若仅需快速获取基础信息,扣子空间也能满足需求。
3.2 旅游规划任务表现对比
Genspark:
- 耗时:3分27秒
- 优势:预算控制精确到元;餐饮推荐具有本地特色
- 不足:忽略了大景点(如熊猫基地)需要预留半天以上的时间
- 实用细节:提供了各景点间的出租车预估费用
扣子空间:
- 耗时:2分56秒
- 优势:必去景点全覆盖
- 不足:缺乏具体价格参考;交通建议模糊(仅说"乘坐地铁"但未说明线路)
- 典型问题:第二天安排看川剧变脸(通常晚上演出)与白天行程存在时间冲突
Manus:
- 耗时:3分15秒
- 优势:可视化时间轴设计;包含特色小吃人均消费参考
- 亮点:考虑到熊猫基地早晨参观体验更好,特别安排在行程首日
- 实用功能:提供各景点官方购票二维码截图
MiniMax Agent:
- 耗时:22分45秒
- 优势:信息最全面(包含景点历史背景、表演时间、避坑指南)
- 特色:采用小红书风格的图文混排,包含网红打卡点拍照建议
- 数据亮点:根据实时天气调整了室内外活动顺序
Flowith Neo:
- 耗时:17分21秒
- 优势:时间安排精确到30分钟区间;包含备选方案(如遇雨天替代活动)
- 不足:界面设计过于商务化,缺乏旅行攻略的活泼感
- 创新点:提供"紧凑型"和"休闲型"两种行程节奏可选
规划心得:好的旅游计划应该包含"时间-地点-活动-预算"四要素的精确匹配。MiniMax Agent虽然耗时最长,但其提供的细节丰富度确实能让旅行准备更充分。
3.3 创意设计任务表现对比
Genspark:
- 耗时:5分43秒
- 优势:空间结构还原度100%;渲染效果逼真
- 设计亮点:在保留原有门窗位置的基础上,通过家具布局优化动线
- 输出质量:提供3套不同风格(现代简约、新中式、北欧风)的可视化方案
扣子空间:
- 耗时:3分18秒
- 优势:效果图美观度高
- 致命缺陷:完全忽略原始空间结构,设计方案无法实际落地
- 典型问题:将承重墙位置设计成了开放式吧台
Manus:
- 耗时:5分06秒
- 优势:空间利用率分析专业;提供材料选购建议
- 不足:设计风格过于标准化,缺乏个性
- 实用功能:标注了哪些家具可保留再利用
MiniMax Agent:
- 耗时:21分17秒
- 优势:生成方案数量最多(6套完整方案)
- 核心问题:空间感知失败,设计方案与原始户型不匹配
- 有趣现象:虽然布局错误,但色彩搭配建议非常专业
Flowith Neo:
- 耗时:15分45秒
- 优势:分析最全面(包含采光优化、收纳系统、声学处理)
- 技术亮点:使用热力图分析现有空间的功能区使用效率
- 设计深度:详细到开关插座的位置规划
设计师提示:AI设计工具最需要提升的是对建筑原始条件的理解能力。Flowith Neo的深度分析虽然耗时,但确实能提供专业级的设计思考维度。
4. 综合评估与技术洞察
4.1 各Agent核心能力雷达图
我们从五个维度对各Agent进行评分(满分10分):
| 评估维度 |
Genspark |
扣子空间 |
Manus |
MiniMax |
Flowith |
| 任务理解准确性 |
9 |
7 |
8 |
6 |
8 |
| 多模态输出质量 |
9 |
5 |
7 |
5 |
7 |
| 逻辑严谨性 |
8 |
6 |
8 |
7 |
9 |
| 创意表现力 |
7 |
8 |
6 |
7 |
9 |
| 响应速度 |
8 |
9 |
8 |
4 |
6 |
4.2 技术架构差异分析
从测试结果反推,各Agent可能采用的技术路线:
-
Genspark:
- 可能采用模块化流水线架构
- 每个输出格式有专门优化模块
- 优势在于工程化实现成熟
-
Flowith Neo:
- 明显采用深度分析优先策略
- 可能整合了专业领域知识图谱
- 牺牲速度换取深度
-
MiniMax Agent:
- 多任务并行处理特征明显
- 内容生成模板化程度高
- 需要加强质量控制模块
4.3 典型问题与解决方案
常见问题一:指令理解偏差
- 现象:扣子空间在创意设计任务中忽略空间约束
- 解决方案:采用"指令确认-反馈"机制,在关键约束处要求用户确认
常见问题二:多模态协同失效
- 现象:Manus的PDF丢失图表元素
- 解决方案:建立输出内容完整性检查流程,确保跨格式一致性
常见问题三:耗时与质量不平衡
- 现象:MiniMax Agent在不同任务表现波动大
- 解决方案:实现动态资源分配,根据任务复杂度调整计算资源
5. 选型建议与实战心得
5.1 不同场景下的Agent选型
-
企业知识管理:
- 首选:Genspark
- 理由:结构化输出能力强,适合生成标准化文档
- 案例:将市场分析报告自动转换为演示文稿
-
个人生活规划:
- 首选:MiniMax Agent
- 理由:信息呈现方式生动,包含实用贴士
- 案例:规划家庭出游行程时获取拍照建议
-
专业设计辅助:
- 首选:Flowith Neo
- 理由:考虑因素全面,提供专业级分析
- 案例:办公室改造前的空间利用率评估
5.2 提升Agent使用效果的技巧
-
指令编写原则:
- 明确非功能性需求(如"图表需要包含图例")
- 设定优先级(如"预算控制比景点数量更重要")
- 提供参考范例(如"类似这种风格的排版")
-
结果优化方法:
- 对不满意的部分进行针对性修正(如"重新生成第三天的行程")
- 结合多个Agent的输出取长补短
- 人工后期微调关键细节
-
性能权衡策略:
- 简单任务设置时间上限
- 复杂任务允许更长处理时间
- 对时效性强的任务选择响应快的Agent
5.3 行业发展趋势观察
从本次测试可以看出AI Agent领域的几个明确趋势:
-
垂直化分工:通用型Agent难以在所有场景都表现优异,未来可能出现更多细分领域专家型Agent
-
多Agent协作:不同Agent间的优势互补将创造更大价值,如Genspark的结构化能力+Flowith的分析深度
-
人机协同进化:最佳效果往往来自人工与AI的配合,如用Agent生成初稿后人工优化关键部分
在实际工作中,我建议采取"一主多辅"的Agent使用策略:选择一个主力Agent应对日常需求,同时准备几个特色Agent处理特定任务。目前阶段,Genspark的综合稳定性使其成为主力Agent的优质选择,而Flowith Neo则适合需要深度分析的关键任务。