爆料：Anthropic 新模型 Mythos 跑分高于 Claude Opus 4.6，终端/修Bug/“像人用电脑”三项都提升

作者：

在

来自 X 用户 @synthwavedd 的爆料称，Anthropic 正在准备一款代号为 Mythos 的“巨型旗舰模型”，将以独立产品形态发布，而非归入 Claude 4.x/5 系列。

（基准解释：Terminal-Bench=看AI能不能在命令行里完成真实操作；SWE-bench Verified=看AI能不能给真实项目修Bug并通过测试；OSWorld=看AI能不能像人一样在电脑界面点按钮/填表完成任务。）
本次流出的对比测试以 Claude Opus 4.6 为基准，披露了多项 benchmark 成绩：在 Terminal-Bench 2.0 上 Mythos 达到 78.4%，相对 Opus 4.6 提升 +13.0%；在 SWE-bench Verified 上为 87.4%，提升 +6.6%；在 OSWorld 上为 79.6%，提升 +6.9%。从这些指标看，Mythos 在终端任务、软件工程修复与通用操作环境任务上均出现不同幅度增长。不过需要强调，这些数据均为网友“泄露/爆料”口径，尚非 Anthropic 官方发…

来源：X @synthwavedd
原始发布时间：2026-03-31T22:07:47.000Z

爆料：Anthropic 新模型 Mythos 跑分高于 Claude Opus 4.6，终端/修Bug/“像人用电脑”三项都提升

更多文章

Anthropic企业支出增势明显，正逼近OpenAI

Sam Altman回应争议报道，并谈及住所遭袭事件

Reddit热议：什么样的“当语言模型 AI 能做到 X，我才会佩服”时刻能打动你？

Reddit热议：使用 AI 工作 6 个月：哪些真正惊艳，哪些被过度吹捧，哪些暗藏风险