英伟达：AXPO缩小智能体思维行动差距-创锋一号

📖标题：Agent Explorative Policy Optimization for Multimodal Agentic Reasoning
🌐来源：arXiv, 2605.28774v1

🛎️文章简介
🔸研究问题：如何解决多模态智能体推理中，因工具使用的高方差和低频尝试导致的强化学习信号缺失问题？
🔸主要贡献：论文提出AXPO算法，通过固定思维前缀并重采样工具调用，有效缩小“思维-行动”差距，显著提升模型性能。

📝重点思路
🔸诊断“思维-行动”差距：研究发现标准RL方法（如GRPO）存在两个症状：工具使用仅占约30%的 rollout，且在使用工具的子组中，约40%的问题全错，导致工具调用token缺乏正向学习信号。
🔸提出工具调用重采样机制：针对全错的工具使用子组，AXPO固定已生成的思维前缀，仅对工具调用及其后续内容进行重采样。这避免了从头生成的计算浪费，将探索集中在高方差的行动环节。
🔸基于不确定性的前缀选择：并非所有失败前缀都值得重采样。AXPO根据策略对工具调用token的平均概率（作为不确定性代理）对候选前缀进行排名，优先重采样置信度最低的前缀，以提高恢复成功率。
🔸分离优势计算：为避免梯度冲突，AXPO将优势流分解。重采样的延续部分使用独立的每前缀GRPO优势；源前缀则通过二元恢复指标（只要有一个重采样成功即奖励）更新，确保思维前缀获得正确的正向反馈。

🔎分析总结
🔸性能全面超越基线：在九个多模态基准测试中，SFT+AXPO在Pass@1和Pass@4上均优于SFT+GRPO。8B模型经AXPO训练后，Pass@4表现甚至超越了未训练的32B基座模型，参数量仅为后者的四分之一。
🔸有效逆转训练动态：实验显示，AXPO训练过程中工具使用率显著上升（增加28个百分点），而全错率大幅下降（降低17个百分点），证明其成功恢复了工具调用的学习信号。
🔸组件消融验证有效性：移除前缀固定、不确定性排序或分离优势计算任一组件，性能均出现明显下降，证实了AXPO各设计选择的必要性。相比单纯增加rollout预算或奖励塑形，AXPO以更少的计算开销获得了更高的收益。
🔸提升工具交互质量：在需要工具介入的任务（如感知和搜索）中增益最大，且在匹配的工具使用子集上，AXPO的条件通过率更高，表明其不仅增加了工具使用频率，更提升了工具使用的准确性。

💡个人观点
论文识别智能体RL中的结构性不对称问题，传统方法往往平等对待思维和行动，但AXPO洞察到行动（工具调用）是高方差瓶颈。通过“固定思维、重采样行动”的策略，针对性的探索机制比盲目增加样本量更高效。

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

MyComputerManager：告别Windows“此电脑”中的顽固快捷方式

105秒下架73个仓库！微软官方库再遭“投毒”：打开Claude、Cursor就可能丢密码？

LangGraph 工作流：真实开发里的落地路径

需要专业的网站建设服务？