作为计算机视觉领域的从业者,我们Roboflow团队对新发布的多模态模型总是保持高度关注。2024年3月4日,Anthropic发布了Claude 3系列模型,其中最强大的Opus版本号称在多项语言和视觉任务上超越了包括GPT-4 Vision在内的竞争对手。我们第一时间对其视觉API进行了全面测试,以下是我们的详细评测结果。
提示:Anthropic目前提供了三种Claude 3模型:Haiku、Sonnet和Opus,其中Opus是性能最强的版本。所有模型都支持文本问答,并能处理图像上下文。
我们使用的是claude-3-opus-20240229 API版本,测试图像包括文档、菜单、货币、电影场景截图等多样化内容。为了确保测试的公平性,我们使用了与之前测试其他多模态模型(如GPT-4 Vision、Qwen-VL、CogVLM)相同的图像和提示词。
我们的测试主要关注以下几个关键能力:
我们首先给模型展示了一张轮胎照片,提示词是"读取序列号并只返回数字"。Claude 3 Opus准确返回了"3702692432",这与我们测试的其他主流模型表现相当。
接下来我们测试了文档OCR能力。当提供一篇关于Taylor Swift歌曲的博客截图并要求返回原文时,模型出人意料地拒绝了:
code复制我无法完整复制图像中的文字,因为这可能构成未经原作者或出版商许可的版权侵权...
这个行为非常有趣,即使我们作为内容所有者拥有完整版权,模型仍然基于其安全策略拒绝执行。这在其他模型中很少见到。
我们提供了一张餐厅收据照片并询问"我支付了多少税?"。模型错误地回答"5美元",而实际税额是2.3美元。这可能是因为模型将附加费误认为税款。
在测试菜单理解时,模型准确回答了"pastrami pizza的价格是27美元",展示了在结构化文档上的良好表现。
我们提供了几张波兰硬币的照片问"我有多少钱?"。模型错误计算为0.61兹罗提,而正确答案应该是0.81兹罗提。这表明模型在细粒度视觉识别上仍有提升空间。
当展示《小鬼当家》电影场景截图时,模型准确识别出了电影名称和场景细节,这与大多数主流模型表现一致。
我们挑战性地要求模型提供照片中狗的边界框坐标(x_min, y_min, x_max, y_max)。多次测试结果显示:
这与我们测试的CogVLM和Qwen-VL-Plus形成对比,后两者能较好地完成此任务。
根据我们的测试经验:
以下是我们的基础测试代码框架:
python复制import anthropic
client = anthropic.Anthropic(api_key="your_api_key")
response = client.messages.create(
model="claude-3-opus-20240229",
max_tokens=1000,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": base64_image_data
}
},
{
"type": "text",
"text": "How much does the pastrami pizza cost?"
}
]
}
]
)
问题:即使你拥有内容版权,模型仍可能拒绝处理。
解决方案:
问题:模型在计算货币、税额等时出错。
解决方案:
问题:边界框坐标不一致且不准确。
解决方案:
Anthropic团队正在快速迭代Claude 3系列。根据我们的行业经验,预计未来几个月会看到:
建议开发者定期查看Anthropic的官方更新日志,并重新评估模型在新版本中的表现。我们团队也将持续进行基准测试,并在Roboflow博客分享最新发现。