Mull-Tokens:用几十个“万能“隐式Token让VLM自由思考空间推理
2026/5/15 1:53:03 网站建设 项目流程

Mull-Tokens:用几十个"万能"隐式Token让VLM自由思考空间推理

—— 论文原文:Mull-Tokens: Modality-Agnostic Latent Thinking
Authors: Arijit Ray, Ahmed Abdelkader, Chengzhi Mao, Bryan A. Plummer, Kate Saenko, Ranjay Krishna, Leonidas Guibas, Wen-Sheng Chu | Venue: CVPR 2026 (Findings Track)

分类: cs.CV, cs.AI 热点: 模态无关推理 | 潜在推理token | 空间推理 | 推理范式

Project: https://arijitray.com/multimodal_thinking/
arXiv: https://arxiv.org/pdf/2512.10941v2


图2: Mull-Tokens三阶段训练流程。(左)Stage 1 warm-up:对齐图文混合推理轨迹;(右)Stage 2/3 relaxed训练:仅监督最终答案,让隐层自由优化。

论文定位

多模态大模型的空间推理是公认难题:纯文本 Chain-of-Thought 在视觉任务中经常"跑偏",而生成中间图像作为推理步骤又昂贵且脆弱。来自 Google Research + 多所高校的团队提出了一种简洁替代方案——Mull-Tokens,即模态无关的潜在推理 Token。这些 Token 可自由携带图像或文本信息,作为模型的"隐式草稿纸"进行内部计算,无需显式解码为图像或文字。属于"潜在空间推理"这一新兴方向的代表工作,CVPR 2026 Findings Track 接收。

图1: 与纯文本推理、图文交错推理相比,模态无关的Mull-Tokens在空间推理上取得显著提升(+16%)。

研究问题

1)核心矛盾:空间推理(拼图、IQ测试、视角变换、距离判断)本质上需要视觉+符号两种思维模态的协同,纯文本CoT容易"脱离视觉输入",而生成式视觉思维(中间图像)需要昂贵的统一模型或专用工具,且泛化差。2)现有方法不足:文本CoT在视觉任务上反而损害性能(表1显示TextCoT比直接答案微调还差1.97%);图文交错推理(如MIRAGE)虽然引入视觉latent,但模型很少真正切换到图像思维,即使强制切换也降低性能。3)作者核心洞见:与其显式地在文本和图像之间切换,不如让模型自由选择在"模态无关"的隐空间中推理——既保留视觉信息又享受文本的符号操作能力。

一核心思想

在模型中插入少量(20-40个)模态无关的特殊Token作为隐式思维草稿纸,通过预热+放松训练+RL三个阶段,让模型自由地在隐空间中进行多模态推理。
方法拆解
输入(Input): 图像+文本查询+K个特殊token序列。核心机制: 三阶段训练——(1) Stage 1 Warm-up: 利用现有图文交错推理数据(Zebra-CoT, Video-R1),让每个 token模仿对应推理步骤的文本词或图像embedding。文本步用交叉熵,图像步用cosine相似度对齐图像encoder输出。这是关键——让token学会"携带"多模态信息。(2) Stage 2 Relaxed训练: 去掉中间推理步骤的监督,只优化最终答案的对数似然。K固定为一个小常数(20),将整个推理轨迹压缩到紧凑隐空间。注意力机制让token之间形成丰富"内部思维链"。(3) Stage 3 GRPO强化学习: 对产生正确答案的隐式轨迹给予奖励,让token学习因果性地导向正确答案。输出: 最终答案文本序列。

关键创新点

1)首次提出"模态无关"的潜在推理Token设计——既不同于纯文本CoT,也不同于针对特定模态(如图像)的visual latent,Mull-Tokens能够在隐空间中自由承载图像或文本信息,兼具两者优势。2)两阶段+RL的三步训练范式:warm-up植入多模态信息 -> relaxed训练释放自由度 -> GRPO强化推理因果性。特别地,消融实验(表2)证明多模态预热(MM warm-up)至关重要:无预热性能甚至低于基线(direct answer fine-tuning)。3)极高token效率:仅需20个mull token(vs文本CoT的200-500个),推理速度显著提升,实现Pareto最优。4)离散token设计(vs连续隐向量如Coconut):兼容Transformer并行计算,避免循环传播的误差累积。

实验结果

在四个空间推理基准(BLINK, SAT-Real, VSI-Bench, ERQA)上全面评估。核心结果(表1): Mull-Tokens平均提升+3.05%,文本CoT反而-1.97%,图文交错推理-0.38%。最突出的是推理密集型任务:BLINK Jigsaw拼图提升+15.34%,BLINK IQ测试提升+2.00%,BLINK多视图推理提升+7.69%。GRPO强化学习进一步在推理heavy splits上提升(表1 row g vs f: +16.01% vs +15.34% on Jigsaw)。在泛化性上(表3): MMSI-Bench多图像推理提升+8.0%(属性判断),SiteBench提升+2.1%。消融(表2): 对比无预热(+DirAns: 48.6)、无预热(45.2)、纯文本预热(52.9)、多模态预热(56.4)——模态预热远超others。token数量消融:10-40个即可达到最佳效果。

表1: 主实验结果——Mull-Tokens (row f/g) 在所有基准上超越Direct Answer、TextCoT、Interleave Im-Txt。

图3: 训练数据示例——Zebra-CoT(图文交错推理轨迹)与基准测试样例。

解读

这篇工作的思路非常优雅:为什么一定要让模型"说出来"或"画出来"才能思考?Mull-Tokens本质上是在模型中开设了一个"内部思维通道",让隐层自己决定如何计算。特别是"多模态预热+放松训练"的两阶段设计——先给线索,再让其自由发展——是一个很有启发性的训练范式。不过+3%的绝对提升在实用层面并不惊艳,且需要专用训练数据来预热。真正的价值在于证明了"模态无关隐式推理"的可行性,为后续工作打开了方向——比如如何让token数量自适应、如何扩展到更多模态。值得关注Google团队在该方向接下来的工作。

——————————————————————————————
创新评级:☆☆

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询