DeNovoSWE数据集发布:显著提升Code Agent长程任务能力,助力仓库级代码生成
2026/6/26 4:55:24 网站建设 项目流程

长程任务评测与Code Agent角色转变

随着LLM Code Agent能力的不断提升,越来越多研究者意识到应迈向下一阶段更接近真实场景需求的长程任务。于是,涌现出一些长程任务评测的Benchmark,如NL2RepoBench以及BeyondSWE等。Code Agent预期承担的角色逐渐从仓库维护者变成架构师,能够做规划完成整个仓库代码的长程任务。

DeNovoSWE数据集发布及成果

近日,中国人民大学高瓴人工智能学院完成相关研究,发布DeNovoSWE数据集,专注于长程软件工程任务,尤其是仓库级别代码从零生成任务。该数据集通过Divide & Conquer与Critic & Repair机制构造高质量数据集,成功实现长程SWE任务的Scaling,构建起包含4,818真实数据的开源高质量长程SWE任务数据集,为Code Agent长程能力训练提供大规模数据,大幅提升其长程任务能力。论文中还提供根据题目难度打分过滤的手段,有效缓解困难题目比例与轨迹质量的权衡问题。

实验显示长程数据提升效果

实验显示,基于DeNovoSWE训练的Qwen3 - 30B - A3B - Instruct在BeyondSWE - Doc2Repo上从5.8%提升到47.2%,在NL2RepoBench上从4.3%提升到23.0%,展示了长程数据对仓库级代码生成能力的显著提升。

长程软件工程能力的关键问题

过去一年,随着像Scale - SWE等工作的大规模SWE数据的scaling,代码智能体在SWE - bench这类真实软件工程任务上快速进步。但当模型越来越擅长「修一个issue」「改几行bug」之后,一个更关键的问题浮现:智能体真的具备长程软件工程能力了吗?从BeyondSWE - Doc2Repo以及NL2RepoBench前沿模型的效果来看,并不理想。真实世界的软件开发,往往需要理解需求、规划架构、创建文件、设计API、处理依赖、打通模块,并最终让整个仓库在测试中跑通,即困难的是long - horizon repository - level generation,这正是DeNovoSWE想要解决的问题。

高质量「从头生成仓库」任务文档标准

在document - to - repository generation中,文档是智能体重建整个仓库的唯一任务入口。一份高质量的任务文档,至少需满足两个核心标准。第一,它必须是well - organized的,应先给出清晰的仓库总览,再按能力或工作流拆分章节,让每部分对应明确的功能边界。第二,它必须从可靠evaluation的角度出发,既不能太少,否则任务变成欠定义问题,可能使模型靠漫无边际猜才能通过evaluation;也不能太多,否则直接泄漏实现细节,让任务失去挑战。真正高质量的文档应描述evaluation所依赖的关键行为,也描述出大致需要完成的功能,要足以让智能体复现可测试行为,但不能变成实现代码的拷贝。这也是DeNovoSWE的核心思想。

DeNovoSWE方法解析

DeNovoSWE将「从文档生成完整仓库」构造成一个大规模、可验证的长程软件工程任务,通过sandboxed multi - agent workflow自动构建高质量实例,方法可概括为Divide和Conquer两步。在Divide阶段,系统分析目标仓库,将其拆解为多个repository capabilities,同时运行原始单元测试并收集执行trace,识别影响evaluation的组件。在Conquer阶段,使用Draft - Critic - Repair机制逐能力生成文档,循环迭代直到每个能力章节足够清晰、完整、与evaluation对齐,最终合并成完整任务文档。

DeNovoSWE任务难度及处理方式

DeNovoSWE的任务难度来自根本变化,它不再是issue - level fixing,而是whole - repository generation。智能体需在清理后的环境中依赖文档重建整个仓库,任何偏差都可能导致测试失败,错误还会累积。为处理不同仓库难度差异,DeNovoSWE提出difficulty - aware trajectory filtering,根据结构复杂度和LLM难度判断,为不同难度区间设置不同过滤阈值,在质量和多样性之间取得平衡。

实验结果验证DeNovoSWE效果

DeNovoSWE最终构建了4818个高质量document - to - repository任务实例,是可执行、可评估、可训练的长程软件工程环境。实验结果显示,DeNovoSWE对模型的长程仓库生成能力带来显著提升。在Qwen3 - 30B - A3B - Instruct上,使用DeNovoSWE训练后性能进一步提升;在更强的Qwen3.5 - 35B - A3B backbone上,DeNovoSWE同样带来稳定收益,说明其收益来自高质量长程数据本身。

结语:长程代码智能体的门槛

代码智能体的下一阶段,是能够理解文档、规划架构、组织模块、实现接口,并最终生成完整可运行的软件仓库。DeNovoSWE将这个目标系统化地构造成可训练、可验证、可扩展的数据集,回答了什么样的数据能真正训练出具备长程软件工程能力的智能体的问题。从一份文档开始,重建整个repository,是长程代码智能体需要跨越的门槛。那么,长程代码智能体何时能真正跨越这道门槛呢?

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询