基于 Anthropic 官方发布的基准测试对比表(Claude Mythos 5 / Fable 5 vs. Claude Mythos Preview、Claude Opus 4.8、GPT 5.5、Gemini 3.1 Pro)
一、总体表现:几乎全线领先
从对比表来看,Fable 5 / Mythos 5 在 14 项基准测试中拿下了 12 项第一,仅在 OSWorld-Verified(计算机使用)和 HLE 带工具版本上以 0.2-0.4 个百分点的微弱差距落后于自家的 Mythos Preview。与外部竞品相比,领先优势则相当显著。
1. 智能体编程(Agentic Coding):断层式领先
| 基准 | Fable 5 / Mythos 5 | Opus 4.8 | GPT 5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro | 80.3% | 69.2% | 58.6% | 54.2% |
| FrontierCode (Diamond) | 29.3% | 13.4% | 5.7% | — |
| Terminal-Bench 2.1 | 88.0%* | 82.7% | 83.4% (Codex CLI) | 70.7% (Gemini CLI) |
最值得关注的是 FrontierCode (Diamond)——这是面向前沿难度编程任务的基准,Fable 5 的 29.3% 是 Opus 4.8(13.4%)的 2.2 倍、GPT 5.5(5.7%)的 5 倍以上。SWE-Bench Pro 上 80.3% 对 GPT 5.5 的 58.6%,差距超过 21 个百分点,这在如今基准日益饱和的环境下属于罕见的代际差距。
2. 知识工作(Knowledge Work):经济价值任务的硬指标
GDPval-AA:1932 分,高于 Opus 4.8 的 1890、GPT 5.5 的 1769,大幅领先 Gemini 3.1 Pro 的 1314。GDPval 类基准衡量的是"真实职业场景中具有经济价值的工作任务",这个指标比传统学术基准更能预测实际生产力。
GDP.pdf(视觉知识工作,无工具):29.8%,对比 Opus 4.8 的 22.5% 和 GPT 5.5 的 24.9%,说明在处理 PDF、图表、扫描件等真实文档时的视觉理解能力有实质提升。
3. 推理与空间能力
Humanity's Last Exam(多学科推理):无工具 59.0%,带工具 64.5%,全面领先 GPT 5.5(41.4% / 52.2%)和 Gemini 3.1 Pro(44.4% / 51.4%)。
Blueprint-Bench 2(空间推理):38.6%,是 Opus 4.8(14.5%)的 2.6 倍。空间推理一直是大模型的短板,这一跃升对建筑、工程图纸、CAD 类场景意义重大。
4. 垂直领域
Legal Agent Benchmark:13.3%——绝对值看似不高,但 GPT 5.5 只有 2.1%,Gemini 3.1 Pro 是 0.0%。这说明法律智能体任务极难,而 Fable 5 是目前唯一"真正能用"的选手。
HealthBench Professional:66.0%,领先 Opus 4.8(56.9%)近 10 个百分点。
BioMysteryBench(hard):46.1%,对比 Opus 4.8 的 40.0% 和 Mythos Preview 的 29.6%。
ExploitBench(网络安全):78.0%,几乎是 Opus 4.8(40.0%)的两倍。
5. 唯一的"非第一"
OSWorld-Verified(85.0% vs. Mythos Preview 的 85.4%)和 HLE 带工具(64.5% vs. 64.7%)输给了自家预览版,差距在误差范围内,不构成实质性退步。
二、行业视角:各职业能获得什么提升
律师行业
法律是这次提升最具标志性的领域:
法律智能体可用性质变:Legal Agent Benchmark 上 13.3% vs. GPT 5.5 的 2.1%、Gemini 的 0.0%。这意味着多步骤法律工作流——检索判例、交叉引用法条、起草并修订文书、核对引用——从"演示玩具"变成了可以试点的工具。
长文档与扫描件处理:GDP.pdf 视觉知识工作 29.8% 的领先,直接对应合同审查、证据材料、扫描卷宗的处理质量。
复杂推理:HLE 多学科推理的领先意味着在涉及跨领域知识(如金融+法律、医疗+法律)的案件分析中,逻辑链条更可靠。
实际落地场景:尽职调查文档批量审查、合同条款风险标注、诉讼文书初稿、判例研究备忘录。需要强调的是,13.3% 的绝对值也提醒我们——法律智能体仍处早期,人类律师的审核仍是必须环节。
教师行业
多学科知识的广度与准确度:HLE 无工具 59.0% 的成绩意味着跨学科备课、出题、答疑时的事实错误率显著下降。
视觉材料理解:空间推理(Blueprint-Bench 2 提升 2.6 倍)和视觉文档理解的进步,让模型能更好地解读几何图形、物理示意图、实验装置图——这正是 STEM 教学中 AI 此前最容易出错的地方。
智能体能力:AutomationBench 和工具使用能力的提升,意味着可以让模型自动批改作业、生成个性化练习集、整理学情数据,而不只是单轮问答。
学术研究行业
生物医学研究:BioMysteryBench (hard) 46.1% 的成绩(对比上一代预览版的 29.6%)显示在开放性科学谜题上的推理能力大幅增强;HealthBench Professional 66.0% 则对应临床与医学文献场景。
文献综述与跨学科综合:HLE 带工具 64.5% 意味着结合检索工具做系统性文献调研时,覆盖面和准确性都更好。
科研代码与数据分析:Terminal-Bench 2.1 的 88.0% 直接对应"让模型在终端里跑通数据处理流水线"的能力——对计算生物学、计量经济学等依赖脚本的学科是实打实的生产力。
GDPval 1932 分说明在撰写基金申请书、整理实验报告这类"职业级知识工作"上输出质量更接近专业人员水准。
程序员行业
这是提升最大、也最直接变现的领域:
SWE-Bench Pro 80.3%:真实 GitHub issue 修复任务的成功率突破 80%,意味着日常 bug 修复、中等复杂度功能开发可以大比例交给智能体完成。
FrontierCode 29.3%(5 倍于 GPT 5.5):前沿难度任务上的断层领先,意味着架构级重构、复杂算法实现这类"高级工程师任务"开始进入模型能力范围。
Terminal-Bench 2.1 88.0%:终端环境下的自主操作(构建、调试、部署、环境配置)高度可靠,长时间无人值守的智能体编程会成为常态。
ExploitBench 78.0%:安全研究与漏洞分析能力几乎翻倍,对安全审计、渗透测试辅助、代码安全审查是重大利好(同时也解释了为什么这类能力需要安全护栏,见下文)。
对程序员的实际含义:角色重心进一步从"写代码"转向"定义任务、审查产出、把控架构"。
三、Fable 5 与 Mythos 5 的区别
这是表格脚注(Methodology)里最关键的信息:
同源双模型,分数相近
两者的报告分数差距在 1-3 个百分点以内,表格展示的是两者中较高的一方。可以理解为同一代能力、两种发布形态。
核心区别在于安全护栏(safeguards)
带星号(*)的基准——HLE、BioMysteryBench、Terminal-Bench 2.1、ExploitBench、HealthBench Professional——两者差距更大。原因是 Anthropic 对网络安全和生物学相关的高风险问题部署了拦截机制:
Fable 5 在触发这些安全拦截时会回退(fallback),因此在这些敏感领域的表现更接近 Claude Opus 4.8 的水平;
Mythos 5 则保留了完整能力的输出。
一句话总结:Mythos 5 是"全能力版",Fable 5 是"加装了高风险领域护栏的版本"。在编程、法律、通用知识工作等绝大多数场景,两者几乎无差别;只有在涉及网络攻击技术、危险生物学知识等敏感边界时,Fable 5 会主动降级以控制滥用风险。这是一种"能力与安全分层发布"的策略——让大多数用户获得旗舰能力,同时把双重用途(dual-use)风险限制在可控范围内。
四、结语
Fable 5 / Mythos 5 这一代的特点可以概括为三点:编程能力的代际跨越(FrontierCode 5 倍于 GPT 5.5)、垂直专业领域的实用化破冰(法律、医疗、生物),以及安全与能力的显式分层(Fable / Mythos 双形态)。对律师、教师、研究者和程序员而言,共同的趋势是:AI 正从"问答工具"转变为"可以委派完整任务的智能体同事"——而你的核心价值,正在向任务定义与质量把关迁移。