模块1:具身智能基础与系统应用
具身智能本质:强调智能体在物理环境中的多模态感知、认知与行为优化的主动交互学习,形成从环境建模到验证执行的自主闭环。
感知与仿真:涵盖主动视觉、3D空间感知及视觉语言导航(VLN)。模拟验证环节介绍了底层通用仿真器(Isaac Sim、Gazebo等)与真实场景模拟器(Habitat、iGibson等)。
ALOHA软硬协同系统:深度剖析了低成本开源双手遥操作硬件ALOHA及其移动版(Mobile ALOHA)。其核心控制引入ACT(动作分块)算法,采用Transformer架构并通过时间集成与分块预测,显著降低模仿学习中多时间步的累积误差。
模块2:VLA模型框架与OpenVLA
模型架构设计:视觉-语言-动作(VLA)多模态大模型由视觉提取器(如CNN或ViT)、语言编码器与动作解码器构成。在高级控制策略上,结合大语言模型可实现自然语言的层级任务规划与代码生成。
行业发展痛点:主要受限于真实环境的高昂数据采集成本、复杂物理运动规划,以及针对未知场景、指令与物体的泛化能力不足。
OpenVLA开源突破:这是一个拥有70亿参数的开源模型,采用DINOv2加SigLIP双通道并行视觉特征提取,深度融合Llama 2语言骨干网络。通过对多任务连续动作进行离散化处理,在高效微调与新环境泛化上确立了新基准。
模块3:轻量级部署方案 SmolVLA
高效架构设计:针对机器人端侧算力受限场景,采用约4.5亿参数的SmolVLM-2为主干。利用层级跳跃设计大幅缩短动作生成的计算链路与深度。
异步执行机制:克服了传统模型同步生成动作Token带来的执行延迟,在策略端集成异步推理架构,大幅提升了现实机器人的动作平滑性与执行效率。
普惠开源生态:摆脱专有大型数据集依赖,依靠LeRobot社区开源数据实现预训练,进一步降低了消费级硬件的部署与二次微调门槛。
模块4:世界模型的演进流派
核心理论:世界模型通过接收当前状态与动作、观测外部环境,在闭环中动态预测下一时刻状态。这是实现复杂环境推演与前瞻性决策的认知基础。
表征世界模型:侧重对客观物理原则的抽象提炼。涵盖了生物大脑的直觉物理引擎(IPE)、基于视觉联合嵌入的潜在空间预测(如V-JEPA),并探讨了传统大语言模型(LLM)在理解三维物理因果律上的局限性。
生成世界模型:侧重环境状态特征的具象模拟。包括基于规则驱动的数字孪生模拟系统,以及数据驱动的生成技术(如Sora、Genie视频模型),展现出其正向可交互环境模拟器发展的广阔前景。