Kairos:面向物理AI的原生世界模型栈
2026/6/26 2:36:10 网站建设 项目流程

学习、维持与运行世界,赋能未来自进化具身智能体

基于论文整理:Kairos: A Native World Model Stack for Physical AI

**核心概述:**世界模型正从被动的视觉生成器,转变为物理AI的基础性运营基础设施。Kairos团队提出了一个原生世界模型栈,通过跨具身数据课程实现原生预训练,借助混合线性时序注意力机制统一理解、生成与预测,并采用部署感知系统协同设计,在服务器级与消费级硬件上均实现低延迟推理。在具身世界模型、长时程生成与动作策略等多项基准评测中,Kairos以显著更少的参数规模达到了当前最优性能水平,同时保持了卓越的推理效率。

一、从视频生成到物理基础设施:世界模型的范式转移

近年来,世界模型(World Model)领域正经历一场深刻的范式变革。早期研究将世界模型主要视为视频生成工具,其核心目标在于合成高保真、时序连贯的视觉未来。以NVIDIA Cosmos为代表的工作,利用生成式视频基础模型构建数字孪生,为物理AI提供基础设施支撑。与此同时,另一股研究潮流聚焦于预测性隐式表征学习,Meta提出的JEPA系列(包括V-JEPA 2与DINO-world)通过在抽象表征空间内部预测未来状态,支持物理理解、零样本规划与机器人控制等下游任务。此外,交互式环境建模方向也在快速推进,World Labs的Marble、DeepMind的Genie 3以及LingBotWorld等工作,致力于构建可探索、可交互的三维世界,使智能体能够在其中感知、导航并执行操作。

上述进展表明,世界模型的定位已不再局限于"视频生成器"这一定义。业界与学界正逐步形成一种共识:世界模型应当成为支撑物理AI的基础模型与可定制底层设施,服务于仿真、合成数据生成、下游适配以及机器人与自主系统的实际部署。然而,这一雄心勃勃的愿景也带来了四大结构性挑战:第一,异构经验来源导致世界知识学习碎片化,开放域视频、人类行为数据与机器人交互数据在感知、行为与具身形态上存在本质差异;第二,长时程持久状态维持困难,现有系统在短时视频续写上表现良好,但在长程生成中难以保持物体恒存性、延迟物理效应与多阶段交互的一致性;第三,世界理解与具身控制之间存在鸿沟,许多模型能够预测未来,却无法可靠建模智能体动作对世界状态的影响;第四,部署与闭环运营的现实约束,若推理延迟过高或内存开销过大,模型将无法嵌入真实的观测-动作-反馈循环,难以支持持续在线适应。

图1 世界模型的技术演进与Kairos的核心定位。Kairos并非单纯的生成模型,而是面向物理AI未来自进化学习而原生设计的可部署基础设施。

Kairos正是针对上述瓶颈结构而设计的。它不再将这些问题视为彼此独立的工程难题,而是通过一个原生世界-动作模型栈进行联合求解:以渐进式跨具身经验学习世界,以一致的时序注意力机制维持世界状态,以部署感知系统协同设计实现世界的高效运行。与当前普遍采用的"先预训练通用视频生成器、再后训练适配下游控制"的解耦范式不同,Kairos倡导一种面向物理AI的原生预训练哲学——通用物理规律、行为语义与具身基础必须从规模化训练的最初阶段就内生于基础架构之中,从而构建一个真正内聚、部署感知的世界-动作基础设施。

二、Kairos三大核心支柱:学习、维持、运行世界

Kairos的核心贡献围绕三个基础层级展开,分别对应物理智能系统必须回答的三个根本问题:如何学习世界、如何维持世界状态、以及如何在世界中高效运行。

2.1 跨具身数据课程:原生预训练范式

Kairos拒绝了解耦的后训练微调路径,提出了一种基于跨具身数据课程(Cross-Embodiment Data Curriculum, CEDC)的原生预训练范式。该范式的核心洞察在于:构建 capable 世界模型所需的知识,不均匀地分布在开放域视频、人类行为痕迹与稀缺的机器人交互数据之中。开放域视频提供了广泛的物理与环境规律性,但通常缺乏动作基础与任务意图;人类数据揭示了结构化行为与交互模式,却与机器人具身形态及控制空间并不直接对齐;机器人数据对具身操作最为相关,但获取成本高昂、覆盖面窄、难以规模化。

为了弥合这种多模态、多尺度数据异质性之间的张力,CEDC将异构经验组织为一个发展式数据金字塔,系统性地引导模型从被动物理理解过渡到主动具身控制。课程分为三个阶段:第一阶段为物理知识注入,利用数百万小时的开放域视频,使模型内化重力、质量守恒、碰撞力学等基础物理规律,此时模型扮演"旁观者"角色;第二阶段为人类中心行为对齐,通过十万小时级的人类行为数据,使模型理解任务组织、意图结构与因果干预,建立从"观察世界"到"参与世界"的桥梁;第三阶段为机器人动作基础,将前述物理与行为先验锚定到机器人特定交互数据中,实现感知-动作对齐,使世界模型从旁观者转变为可在真实环境中执行操作的运营基底。

图2 跨具身数据课程(CEDC)的三层结构:从物理规律观察,到人类行为模仿,再到机器人具身执行,形成渐进式发展路径。

2.2 统一理解-生成-预测架构与混合线性时序记忆

Kairos的架构设计体现了对长时程世界状态维持问题的深刻认识。团队指出,短时视频续写可以依赖局部视觉平滑性,但世界建模需要更困难的能力——在漫长时间跨度内保持同一个世界的连贯性,包括物体恒存性、延迟物理效应、多阶段交互、隐式任务进度以及可能在巨大时间间隙后才显现的因果后果。

为此,Kairos构建了一个原生的理解-生成-预测统一架构,基于混合Transformer(Mixture-of-Transformers, MoT)栈实现。世界理解模块负责从异构输入中提取深度表征,采用视觉-语言模型(VLM)将物理规律描述、多模态传感器流与语言指令转化为高层语义表示;世界生成模块基于条件扩散范式,以扩散Transformer(DiT)为骨干,在紧凑隐空间中生成高保真未来视频;世界预测模块则将机器人动作作为未来世界演化的内在组成部分进行联合建模,而非仅模拟未来观测。

图3 Kairos原生统一架构:理解模块提供因果语义解释,生成模块展开物理可信的未来,预测模块输出可部署的动作轨迹,三者共享世界状态。

保证长时程一致性的关键技术在于混合线性时序注意力(Hybrid Linear Temporal Attention)。Kairos将时序建模分解为三个互补机制:滑动窗口注意力(SWA)负责捕捉局部动态;扩张滑动窗口注意力(DSWA)捕获中程依赖;门控线性注意力(GLA)则作为收缩性全局因果记忆,维持持久的世界状态。论文从理论上严格证明了这种时序分解的必要性与充分性:当最优预测器依赖超出有限窗口的历史信息时,任何纯局部模型都不可避免地承受严格正的信息论超额风险;而混合多尺度记忆在全局记忆更新满足收缩性条件时,能够将长时程超额风险严格控制在局部逼近误差与几何衰减扰动项的叠加范围内,从而从数学上保证了扩展时间跨度上的状态传播一致性。

图4 Kairos详细模型架构。多模态理解编码器将视觉、语言与机器人状态嵌入统一表征空间;MoT DiT骨干通过共享视频-动作混合注意力实现联合建模;右侧展示了混合线性注意力的训练与推理时序分配策略。

2.3 部署感知系统协同设计

Kairos团队强调,对于志在实现闭环自进化的世界模型而言,系统优化并非后验加速的奢侈品,而是运营层面的必需品。如果推理延迟或内存占用阻碍了模型进入真实观测-动作-反馈循环,持续适应便无从谈起。因此,Kairos将执行效率作为一等建模原则,通过硬件感知计算核、量化协议与令牌流式传输的协同设计,在服务器与消费级硬件上均实现了低延迟、低内存占用的推理。

具体而言,Kairos采用分布匹配蒸馏(DMD)与一致性蒸馏(CM)相结合的混合蒸馏策略,将预训练的教师模型压缩为仅需4步采样的高效生成器,同时保持空间结构、运动动态与物理交互的保真度。在硬件层面,团队针对混合注意力的复杂计算依赖特性,设计了定制化的算子级并行划分策略:对滑动窗口注意力采用Ulysses序列并行,对交叉注意力采用基础序列并行,对门控DeltaNet采用改进的张量并行,并引入分块计算与流式访问机制,在消费级GPU上实现了亚毫秒级关键词定位与长时程视频生成。

三、技术架构深度解析

3.1 混合Transformer与视频-动作联合建模

Kairos的骨干网络采用线性DiT(LinearDiT)设计,通过混合注意力机制替代标准的全量Softmax自注意力,将时序复杂度从二次降为线性。每个混合块组包含局部、扩张与全局注意力组件,分别对应不同时间尺度的信息聚合需求。

门控线性注意力(GLA)基于GatedDeltaNet实现,其核心在于Delta更新规则:通过软"写入强度"门控,模型在更新记忆状态前先移除过时或重要性较低的键-值关联,再写入新信息。同时,衰减门控自适应地调节历史记忆的贡献,实现精确联想修正与自适应长期记忆控制的结合。GLA作为骨干中唯一的全局注意力机制,与负责细粒度局部运动建模的SWA、负责中程时间交互的DSWA形成清晰的能力分工。

在世界动作建模层面,Kairos将视频DiT与动作DiT置于统一的MoT框架下。视频DiT继承预训练的世界生成能力,建模未来视觉令牌;动作DiT以约五分之一于视频DiT的参数量,预测未来动作令牌。两者通过统一的注意力掩码机制实现联合优化:历史视频令牌仅允许自注意力,防止未来信息泄漏;未来视频令牌与动作令牌则可关注全部历史视觉上下文。值得注意的是,动作分支不依赖未来视频令牌,因此在推理时可禁用视频生成分支,仅生成动作令牌,大幅降低注意力与扩散计算开销,实现高效的动作推理模式。

图5 Kairos自进化框架。系统遵循"推出-评估-精炼-更新"的闭环循环,通过内部Chain-of-Thought分析对多条未来轨迹进行评分、排序与策略优化。

3.2 三阶段训练策略与数据工程

Kairos的原生预训练流程严格对应CEDC的三层数据结构,分为渐进式阶段。第一阶段(物理预训练)专注于向VideoDiT注入基础物理先验,采用从图像到视频、从低分辨率到高分辨率、从短序列到长序列的渐进策略,并引入形状感知指数时间步偏移调度器,自适应调整不同 latent 时空形状下的有效时间步分布。第二阶段(具身预训练)引入人类中心数据,使模型从无条件视频生成转向任务结构化视频预测,学习意图驱动的动作因果表征。第三阶段(联合世界-动作训练)在冻结VideoDiT粗粒度物理语义的基础上,通过联合优化ActionDiT与VideoDiT,将低层动作轨迹强制视觉表征从被动合成转向主动、动作条件的预测,消除解耦架构中常见的表示错位与灾难性漂移。

在数据工程层面,Kairos构建了千万小时级的分层数据采集与处理管线。数据来源于开源数据集与自研专有数据的混合策略,涵盖人类、机器人、物理现象与通用场景四大核心域。团队设计了多维度质量过滤体系,包括美学评分、运动评分、AIGC鉴别、模糊度评估、人体运动检测、OCR检测与去重等模块,并基于Qwen3-VL-8B构建了端到端自动标注管线,实现视频属性标签与领域标签的结构化标注。针对物理现象数据,团队专门构建了物理中心 Caption,不仅描述表面现象,更解释背后的物理原理;针对长时程任务数据,则通过显式步骤分解与因果逻辑链构建,增强模型的长程任务规划能力。

图6 增强文本标注示例。左图为物理中心Caption,在描述现象的同时解释背后的力学原理;右图为长时程任务Caption,将复杂操作分解为具有因果依赖的具体步骤。

3.3 推理效率:从云端实时到端侧可用

Kairos在推理效率方面实现了跨越式优化。在NVIDIA A800上,480P分辨率、5秒视频的生成仅需11.7秒(单卡)或3.0秒(4卡),达到实时级别;在消费级RTX 5090上,单卡推理时间为11.4秒,4卡为5.7秒。与同类模型相比,Kairos-4B在720P、5秒配置下的单卡延迟仅为43秒,4卡下低至9秒,显著优于Lingbot-28B(1436秒/4卡)、Cosmos-Predict2.5-14B(687秒/4卡)与Wan2.2-5B(85秒/4卡)。

图7 人工评测胜率对比。在PAI-Bench、WorldModelBench与DreamGen三项基准上,Kairos-4B在多项对比中取得显著优势,展现出卓越的生成质量与物理一致性。

效率优势来源于架构与系统层面的双重创新。架构上,混合线性注意力的线性复杂度使模型在时长与分辨率增加时保持稳定的计算增长曲线;系统上,定制化的混合并行策略、TeaCache时间步计算复用、Torch.compile图优化与专用融合算子共同压缩了端到端延迟。在消费级设备上,Kairos采用FP8/INT8/INT4混合精度量化,对Q/K矩阵实施每线程/每warp级细粒度量化,并通过仅权重量化将文本编码器压缩至INT4,在几乎不损失语义精度的前提下,将内存占用降至可与边缘计算硬件兼容的水平。

四、实验验证:多维度评测全面领先

Kairos在具身世界模型、世界动作模型与通用世界建模三类基准上进行了全面评估,结果表明其在性能与效率之间实现了优异的权衡。

4.1 具身世界模型基准

在WorldModelBench机器人子集上,Kairos-4B以总分9.30取得领先,在指令遵循(2.36)、物理遵循(4.96)与常识推理等维度均达到或接近满分。在DreamGen Bench上,Kairos-4B在平均物理遵循度(0.538)与平均总分(0.618)两项核心指标上均排名第一,平均指令遵循度(0.698)仅次于14B规模的Wan2.2。在PAI-Bench机器人子集上,Kairos-4B在域得分(88.59)与总分(82.57)上均领先于同规模模型,并超越多款14B以上大模型。人工评测进一步验证了这些结果:在PAI-Bench上,Kairos-4B对Cosmos-Predict2.5-14B的胜率为60.2%,对Wan2.2-5B的胜率高达74.1%;在WorldModelBench上,对Wan2.2-5B的胜率为86.7%,对Lingbot-28B为74.7%。

图8 Kairos在WorldModelBench上的生成样例,展示了其在机器人操作场景中的指令遵循与物理一致性。

4.2 世界动作模型基准

在机器人控制领域,Kairos的世界动作模型(WAM)在RoboTwin 2.0与LIBERO-Plus两项挑战性基准上取得了新的里程碑。RoboTwin 2.0包含超过50项双手协调操作任务,Kairos在清洁环境与随机化环境下的平均成功率分别达到96.9%与95.2%,在全部参评方法中位列前茅。在LIBERO-Plus上,Kairos-joint变体通过推理时联合视频与动作去噪,将平均成功率提升至90.8%,显著优于现有VLA与WAM基线。消融实验表明,大规模人类中心数据的注入带来了6.0个百分点的平均性能提升;而联合训练生成与预测相比仅训练动作预测,平均性能提升高达23.2个百分点,充分验证了世界建模监督对动作策略学习的关键作用。

图9 Kairos在PAI-Bench上的生成样例,覆盖抽屉操作、桌面整理、厨房环境等多样化机器人任务。

4.3 通用世界建模与长时程生成

在通用世界建模评测中,Kairos-4B在PAI-Bench全领域评测中取得最佳整体表现,在背景一致性、机器人、工业制造等多个子域表现突出。在VideoPhy物理推理基准上,Kairos以45.55的平均分超越Cosmos-Predict2.5-14B(45.16)与Wan2.2-5B(38.85),展现出对固体-固体、固体-流体与流体-流体交互的准确建模能力。

在长时程生成方面,当视频时长从5秒扩展到15秒时,基线模型在质量指标与领域指标上均出现明显退化,而Kairos-4B以79.9的总分保持领先,在自动驾驶(66.7)、机器人(80.4)、工业制造(86.8)等长时程敏感领域均展现出优异的稳定性。视觉样例显示,在15秒跨度内,Kairos能够持续保持物体外观与场景结构的一致性,如狗狗与漂浮泡泡的交互、森林晨雾随日照增强而渐消等动态过程均呈现自然连贯的时序演化。

图10 Kairos 15秒长时程生成样例。在跨越数百帧的时间跨度内,模型保持了物体外观、场景结构与物理动态的连贯一致性。

五、总结与展望

Kairos的提出标志着世界模型从"静态生成展示"向"可部署、动作敏感、持续演化的运营基底"的关键转变。通过跨具身数据课程实现原生知识注入,通过混合线性时序注意力保障长时程状态一致性,通过部署感知协同设计打通从云端到端侧的推理链路,Kairos为物理AI提供了一个内聚且可实际运行的世界模型栈。

面向未来,Kairos团队规划了两条演进主线。其一,自主自进化:通过构建完全闭环的自进化框架,使Kairos能够持续与真实环境交互,自主评估策略执行偏差,并通过递归多阶段想象精炼其内部时空物理仿真器,最终进化为具备开放式物理适应能力的自改进认知智能体。其二,通用具身基底:将Kairos从孤立的任务特定环境扩展到真正通用的物理AI平台,统一动作空间以适配从复杂人形平台到灵巧多指操作装置的多样化硬件,通过开放域环境的异构预训练,实现对零样本复杂意图识别与跨无约束物理域的高成功率执行。

从学习世界的基础规律,到维持世界的持久状态,再到在真实约束下高效运行,Kairos所搭建的这条能力链条,正为下一代具身智能系统的自进化与规模化部署,奠定坚实的模型基础设施。

具身智能&世界模型blog: https://jinxindeep.github.io/blog/blog2026.html

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询