演讲核心观点
VLA已死,WAM将成为新的预训练范式;未来一到两年,遥操占比降至可忽略不计,机器人“主食”变第一视角人类视频;人类第一视角视频启发scaling law,英伟达押注该视频;算力=环境=数据;机器人科技树三成就待解锁,2040年有望达成。
演讲全文
2016年夏日,Jim Fan初见黄仁勋并签名,Ilya称“相信深度学习,它也会相信你”。2020 - 2026年经历三步发展,Jim Fan提出“大平行”思路。
机器人联盟:终局之战
模型策略:过去三年VLA占主导,实则LVA,语言核心,物理和动词表现不足。第二种范式起初像AI视频垃圾,后发现能模拟世界状态。Veo3学习物理规律,动作微调产生Dream Zero,迈向WAM,VLA已死,WAM当立。数据策略:过去三年遥操作统治但数据产能有上限,UMI催生两家独角兽,DexUMI外骨骼系统打破采集限制。英伟达押注第一视角人类视频形成EgoScale,发现“机器人灵巧性”神经scaling law。未来遥操占比极低,机器人“主食”变第一视角人类视频,遥操已死,人类传感器数据长存。前沿实验室用代码环境做强化学习,机器人新方法可将物理世界搬进数字世界,Dream Dojo形成自我强化飞轮。机器人科技树三成就待解锁,若遵循指数曲线,2040年前有望走到终点。