Reddit热议：ClawBench：AI 智能体能完成日常在线任务吗？153 项任务、144 个实时网站，最佳模型准确率仅 33.3%

作者：

在

帖子介绍了用于评测 AI 浏览器智能体的 ClawBench，该基准覆盖 144 个真实在线网站上的 153 项日常任务，强调不是沙盒或合成环境，而是直接在生产平台上测试。作者给出的核心结果是，目前整体表现仍然有限，最佳模型 Claude Sonnet 4.6 成功率只有 33.3%，GLM-5 以 24.2% 位列第二，且作为纯文本模型表现出乎意料。任务难度上，金融和学术类相对更容易，最佳模型可达 50%，旅行和开发类明显更难，同时没有任何模型在任何类别中超过 50%。作者重点说明了评测设计，包括五层行为数据记录、对每个任务提供人工真实标注，以及可做逐步诊断的评估器；同时用请求拦截器在付款、预订等不可逆操作前阻断最终 HTTP 请求，以保证真实网站评测的安全性。帖子最后明确希望社区就任务选择和评测方法提出反馈。

来源：Reddit（r/MachineLearning）
原始发布时间：2026-04-15 01:21

Reddit热议：ClawBench：AI 智能体能完成日常在线任务吗？153 项任务、144 个实时网站，最佳模型准确率仅 33.3%

更多文章

谷歌 I/O 2026 前瞻：Gemini 更新与智能体编程或成焦点

ASML上调2026年业绩指引，AI芯片需求持续走强

Reddit热议：ClawBench：AI 智能体能完成日常在线任务吗？153 项任务、144 个实时网站，最佳模型准确率仅 33.3%

Reddit热议：突发：OpenAI 向有限测试群体推出 GPT-5.4-Cyber，剑指 Claude Mythos