帖子介绍了用于评测 AI 浏览器智能体的 ClawBench,该基准覆盖 144 个真实在线网站上的 153 项日常任务,强调不是沙盒或合成环境,而是直接在生产平台上测试。作者给出的核心结果是,目前整体表现仍然有限,最佳模型 Claude Sonnet 4.6 成功率只有 33.3%,GLM-5 以 24.2% 位列第二,且作为纯文本模型表现出乎意料。任务难度上,金融和学术类相对更容易,最佳模型可达 50%,旅行和开发类明显更难,同时没有任何模型在任何类别中超过 50%。作者重点说明了评测设计,包括五层行为数据记录、对每个任务提供人工真实标注,以及可做逐步诊断的评估器;同时用请求拦截器在付款、预订等不可逆操作前阻断最终 HTTP 请求,以保证真实网站评测的安全性。帖子最后明确希望社区就任务选择和评测方法提出反馈。
来源:Reddit(r/MachineLearning)
原始发布时间:2026-04-15 01:21