Mull-Tokens：用几十个“万能“隐式Token让VLM自由思考空间推理-创锋一号

Mull-Tokens：用几十个"万能"隐式Token让VLM自由思考空间推理

—— 论文原文：Mull-Tokens: Modality-Agnostic Latent Thinking
Authors: Arijit Ray, Ahmed Abdelkader, Chengzhi Mao, Bryan A. Plummer, Kate Saenko, Ranjay Krishna, Leonidas Guibas, Wen-Sheng Chu | Venue: CVPR 2026 (Findings Track)

分类: cs.CV, cs.AI 热点: 模态无关推理 | 潜在推理token | 空间推理 | 推理范式

Project: https://arijitray.com/multimodal_thinking/
arXiv: https://arxiv.org/pdf/2512.10941v2

图2: Mull-Tokens三阶段训练流程。(左)Stage 1 warm-up：对齐图文混合推理轨迹；(右)Stage 2/3 relaxed训练：仅监督最终答案，让隐层自由优化。

论文定位

多模态大模型的空间推理是公认难题：纯文本 Chain-of-Thought 在视觉任务中经常"跑偏"，而生成中间图像作为推理步骤又昂贵且脆弱。来自 Google Research + 多所高校的团队提出了一种简洁替代方案——Mull-Tokens，即模态无关的潜在推理 Token。这些 Token 可自由携带图像或文本信息，作为模型的"隐式草稿纸"进行内部计算，无需显式解码为图像或文字。属于"潜在空间推理"这一新兴方向的代表工作，CVPR 2026 Findings Track 接收。

图1: 与纯文本推理、图文交错推理相比，模态无关的Mull-Tokens在空间推理上取得显著提升(+16%)。

研究问题

1)核心矛盾：空间推理（拼图、IQ测试、视角变换、距离判断）本质上需要视觉+符号两种思维模态的协同，纯文本CoT容易"脱离视觉输入"，而生成式视觉思维（中间图像）需要昂贵的统一模型或专用工具，且泛化差。2)现有方法不足：文本CoT在视觉任务上反而损害性能（表1显示TextCoT比直接答案微调还差1.97%）；图文交错推理（如MIRAGE）虽然引入视觉latent，但模型很少真正切换到图像思维，即使强制切换也降低性能。3)作者核心洞见：与其显式地在文本和图像之间切换，不如让模型自由选择在"模态无关"的隐空间中推理——既保留视觉信息又享受文本的符号操作能力。

一核心思想

在模型中插入少量(20-40个)模态无关的特殊Token作为隐式思维草稿纸，通过预热+放松训练+RL三个阶段，让模型自由地在隐空间中进行多模态推理。
方法拆解
输入(Input): 图像+文本查询+K个特殊token序列。核心机制: 三阶段训练——(1) Stage 1 Warm-up: 利用现有图文交错推理数据(Zebra-CoT, Video-R1)，让每个 token模仿对应推理步骤的文本词或图像embedding。文本步用交叉熵，图像步用cosine相似度对齐图像encoder输出。这是关键——让token学会"携带"多模态信息。(2) Stage 2 Relaxed训练: 去掉中间推理步骤的监督，只优化最终答案的对数似然。K固定为一个小常数(20)，将整个推理轨迹压缩到紧凑隐空间。注意力机制让token之间形成丰富"内部思维链"。(3) Stage 3 GRPO强化学习: 对产生正确答案的隐式轨迹给予奖励，让token学习因果性地导向正确答案。输出: 最终答案文本序列。

关键创新点

1)首次提出"模态无关"的潜在推理Token设计——既不同于纯文本CoT，也不同于针对特定模态（如图像）的visual latent，Mull-Tokens能够在隐空间中自由承载图像或文本信息，兼具两者优势。2)两阶段+RL的三步训练范式：warm-up植入多模态信息 -> relaxed训练释放自由度 -> GRPO强化推理因果性。特别地，消融实验(表2)证明多模态预热(MM warm-up)至关重要：无预热性能甚至低于基线(direct answer fine-tuning)。3)极高token效率：仅需20个mull token（vs文本CoT的200-500个），推理速度显著提升，实现Pareto最优。4)离散token设计（vs连续隐向量如Coconut）：兼容Transformer并行计算，避免循环传播的误差累积。

实验结果

在四个空间推理基准(BLINK, SAT-Real, VSI-Bench, ERQA)上全面评估。核心结果(表1): Mull-Tokens平均提升+3.05%，文本CoT反而-1.97%，图文交错推理-0.38%。最突出的是推理密集型任务：BLINK Jigsaw拼图提升+15.34%，BLINK IQ测试提升+2.00%，BLINK多视图推理提升+7.69%。GRPO强化学习进一步在推理heavy splits上提升(表1 row g vs f: +16.01% vs +15.34% on Jigsaw)。在泛化性上(表3): MMSI-Bench多图像推理提升+8.0%(属性判断)，SiteBench提升+2.1%。消融(表2): 对比无预热(+DirAns: 48.6)、无预热(45.2)、纯文本预热(52.9)、多模态预热(56.4)——模态预热远超others。token数量消融：10-40个即可达到最佳效果。

表1: 主实验结果——Mull-Tokens (row f/g) 在所有基准上超越Direct Answer、TextCoT、Interleave Im-Txt。

图3: 训练数据示例——Zebra-CoT（图文交错推理轨迹）与基准测试样例。

解读

这篇工作的思路非常优雅：为什么一定要让模型"说出来"或"画出来"才能思考？Mull-Tokens本质上是在模型中开设了一个"内部思维通道"，让隐层自己决定如何计算。特别是"多模态预热+放松训练"的两阶段设计——先给线索，再让其自由发展——是一个很有启发性的训练范式。不过+3%的绝对提升在实用层面并不惊艳，且需要专用训练数据来预热。真正的价值在于证明了"模态无关隐式推理"的可行性，为后续工作打开了方向——比如如何让token数量自适应、如何扩展到更多模态。值得关注Google团队在该方向接下来的工作。

——————————————————————————————
创新评级：☆☆

企业官网建设流程全解析