陶哲轩First Proof项目二批评测：7道题AI解答达发表标准，各系统成本耗时差异大-创锋一号

【导语：陶哲轩主导的First Proof项目第二批评测结果出炉，本次评测提高标准，采用双盲同行评议机制，4套AI系统参与答题，7道题的AI解答达学术发表标准，各系统成本与耗时差异明显，后续8 - 10月将开展第三批评测。】

评测升级：双盲评审严筛AI数学能力

First Proof项目第二批评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则，且相比第一次评测进一步提高标准。此次引入双盲同行评议机制，由项目组统一操作测试，30位数学专家像期刊审稿一样盲审打分，评审只能看到证明稿件，不知作者是AI还是人类，所有证明按人类数学论文标准分为四档审核。

题目多元：覆盖十大数学研究方向

本次的10道问题覆盖可计算理论、离散几何、离散概率、度量几何、随机偏微分方程、格论、组合拓扑、拟阵与热带几何、代数组合、冯・诺依曼代数十大方向，且每道题都从未在网上或期刊公开过证明，出题人包括顶尖数学家Larry Guth。

系统比拼：各有优劣成本耗时不同

参与评测的4套AI系统各有特点。System A以GPT - 5.5 Pro为核心底座，兼容多款大模型协同运算，在P5随机偏微分方程题中跳出人类常规思路，给出全新证明。System B由加州大学洛杉矶分校团队研发，基于GPT - 5.5 Pro搭建。System C是OpenAI官方原生模型ChatGPT 5.5 Pro，运行5.8小时耗时最短，10道题总花费117美元，性价比最高，但原创能力偏弱。System D是普林斯顿大学团队推出的推理系统，依托Gemini 3.1 Pro预览版运行，花费1014美元、运行7.8小时，投入产出比较低。

苏黎世联邦理工的System A解题能力强，但总费用达3186美元，单题最高花费951美元，运行22.9小时；陶哲轩所在UCLA团队系统成本最高，共计4799美元，运行23.1小时，稳定性尚可却未实现能力突破。

后续展望：8 - 10月开展第三批评测

陶哲轩认为本轮整体表现未达预期，现存问题将作为后续优化方向。后续安排明确，8 - 10月将开展First Proof项目第三批正式评测，评测规则沿用第二批次标准。

编辑观点：First Proof项目评测为AI数学能力提供了严格检验，虽此次未达预期，但各系统展现出不同特点，后续评测值得关注，有望推动AI在数学领域的发展。

企业官网建设流程全解析

评测升级：双盲评审严筛AI数学能力

题目多元：覆盖十大数学研究方向

系统比拼：各有优劣成本耗时不同

后续展望：8 - 10月开展第三批评测

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

评测升级：双盲评审严筛AI数学能力

题目多元：覆盖十大数学研究方向

系统比拼：各有优劣成本耗时不同

后续展望：8 - 10月开展第三批评测

热门文章

文章分类

标签云

相关文章

Element UI Cascader 动态加载踩坑实录：从数据回显失败到点击标签选中的完整解决方案

以证为阶，向AI而行——我为什么选择报考NVIDIA NCA认证

零基础打造专业AI翻唱：AICoverGen免费音乐创作神器

需要专业的网站建设服务？