PinchBench基准测试：Gemini 3 Flash在OpenClaw任务中以95.1%领先AI大模型

PinchBench基准测试：Gemini 3 Flash在OpenClaw任务中以95.1%领先AI大模型PinchBench基准测试：Gemini 3 Flash在OpenClaw任务中以95.1%领先AI大模型

星球日报快讯 · 2026-03-08 03:27:32

慢雾 CISO 23pads 在 X 平台发文表示，PinchBench 基准测试评估 AI 大语言模型在 OpenClaw 代理任务中的表现，结果显示 Gemini 3 Flash 处理 OpenClaw 任务成功率以 95.1% 领先，minimax-m2.1、kimi-k2.5 则分别以 93.6%、93.4% 分列 2、3 位。Claude Sonnet 4.5 则为 92.7%，GPT-4o 为 85.2%。