陶哲轩First Proof项目二批评测:7道题AI解答达发表标准,各系统成本耗时差异大
2026/6/17 16:03:36 网站建设 项目流程

【导语:陶哲轩主导的First Proof项目第二批评测结果出炉,本次评测提高标准,采用双盲同行评议机制,4套AI系统参与答题,7道题的AI解答达学术发表标准,各系统成本与耗时差异明显,后续8 - 10月将开展第三批评测。】


评测升级:双盲评审严筛AI数学能力

First Proof项目第二批评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则,且相比第一次评测进一步提高标准。此次引入双盲同行评议机制,由项目组统一操作测试,30位数学专家像期刊审稿一样盲审打分,评审只能看到证明稿件,不知作者是AI还是人类,所有证明按人类数学论文标准分为四档审核。

题目多元:覆盖十大数学研究方向

本次的10道问题覆盖可计算理论、离散几何、离散概率、度量几何、随机偏微分方程、格论、组合拓扑、拟阵与热带几何、代数组合、冯・诺依曼代数十大方向,且每道题都从未在网上或期刊公开过证明,出题人包括顶尖数学家Larry Guth。

系统比拼:各有优劣成本耗时不同

参与评测的4套AI系统各有特点。System A以GPT - 5.5 Pro为核心底座,兼容多款大模型协同运算,在P5随机偏微分方程题中跳出人类常规思路,给出全新证明。System B由加州大学洛杉矶分校团队研发,基于GPT - 5.5 Pro搭建。System C是OpenAI官方原生模型ChatGPT 5.5 Pro,运行5.8小时耗时最短,10道题总花费117美元,性价比最高,但原创能力偏弱。System D是普林斯顿大学团队推出的推理系统,依托Gemini 3.1 Pro预览版运行,花费1014美元、运行7.8小时,投入产出比较低。

苏黎世联邦理工的System A解题能力强,但总费用达3186美元,单题最高花费951美元,运行22.9小时;陶哲轩所在UCLA团队系统成本最高,共计4799美元,运行23.1小时,稳定性尚可却未实现能力突破。

后续展望:8 - 10月开展第三批评测

陶哲轩认为本轮整体表现未达预期,现存问题将作为后续优化方向。后续安排明确,8 - 10月将开展First Proof项目第三批正式评测,评测规则沿用第二批次标准。

编辑观点:First Proof项目评测为AI数学能力提供了严格检验,虽此次未达预期,但各系统展现出不同特点,后续评测值得关注,有望推动AI在数学领域的发展。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询