爆料:Anthropic 新模型 Mythos 跑分高于 Claude Opus 4.6,终端/修Bug/“像人用电脑”三项都提升

来自 X 用户 @synthwavedd 的爆料称,Anthropic 正在准备一款代号为 Mythos 的“巨型旗舰模型”,将以独立产品形态发布,而非归入 Claude 4.x/5 系列。

(基准解释:Terminal-Bench=看AI能不能在命令行里完成真实操作;SWE-bench Verified=看AI能不能给真实项目修Bug并通过测试;OSWorld=看AI能不能像人一样在电脑界面点按钮/填表完成任务。)
本次流出的对比测试以 Claude Opus 4.6 为基准,披露了多项 benchmark 成绩:在 Terminal-Bench 2.0 上 Mythos 达到 78.4%,相对 Opus 4.6 提升 +13.0%;在 SWE-bench Verified 上为 87.4%,提升 +6.6%;在 OSWorld 上为 79.6%,提升 +6.9%。从这些指标看,Mythos 在终端任务、软件工程修复与通用操作环境任务上均出现不同幅度增长。不过需要强调,这些数据均为网友“泄露/爆料”口径,尚非 Anthropic 官方发…

来源:X @synthwavedd
原始发布时间:2026-03-31T22:07:47.000Z