【导语:陶哲轩主导的First Proof项目第二批评测结果出炉,本次评测提高标准,采用双盲同行评议机制,4套AI系统参与答题,7道题的AI解答达学术发表标准,各系统成本与耗时差异明显,后续8 - 10月将开展第三批评测。】
First Proof项目第二批评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则,且相比第一次评测进一步提高标准。此次引入双盲同行评议机制,由项目组统一操作测试,30位数学专家像期刊审稿一样盲审打分,评审只能看到证明稿件,不知作者是AI还是人类,所有证明按人类数学论文标准分为四档审核。
本次的10道问题覆盖可计算理论、离散几何、离散概率、度量几何、随机偏微分方程、格论、组合拓扑、拟阵与热带几何、代数组合、冯・诺依曼代数十大方向,且每道题都从未在网上或期刊公开过证明,出题人包括顶尖数学家Larry Guth。
参与评测的4套AI系统各有特点。System A以GPT - 5.5 Pro为核心底座,兼容多款大模型协同运算,在P5随机偏微分方程题中跳出人类常规思路,给出全新证明。System B由加州大学洛杉矶分校团队研发,基于GPT - 5.5 Pro搭建。System C是OpenAI官方原生模型ChatGPT 5.5 Pro,运行5.8小时耗时最短,10道题总花费117美元,性价比最高,但原创能力偏弱。System D是普林斯顿大学团队推出的推理系统,依托Gemini 3.1 Pro预览版运行,花费1014美元、运行7.8小时,投入产出比较低。
苏黎世联邦理工的System A解题能力强,但总费用达3186美元,单题最高花费951美元,运行22.9小时;陶哲轩所在UCLA团队系统成本最高,共计4799美元,运行23.1小时,稳定性尚可却未实现能力突破。
陶哲轩认为本轮整体表现未达预期,现存问题将作为后续优化方向。后续安排明确,8 - 10月将开展First Proof项目第三批正式评测,评测规则沿用第二批次标准。
编辑观点:First Proof项目评测为AI数学能力提供了严格检验,虽此次未达预期,但各系统展现出不同特点,后续评测值得关注,有望推动AI在数学领域的发展。