前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。
这篇论文《ViewSpatial-Bench: Benchmark and Models for Multi-Viewpoint Spatial Reasoning in VLMs》由浙江大学等机构的研究者完成,主要聚焦于视觉语言模型(VLMs)在多视角空间推理任务中的能力不足。下面我为你系统解析这篇论文解决的问题、提出的方法以及核心贡献。
一、解决的问题
核心问题:
当前的视觉语言模型在“多视角空间定位与推理”任务上表现很差,尤其是当需要从一个非自我中心视角(如从另一个人或物体的视角)进行空间判断时。
具体表现包括:
视角泛化能力缺失:
VLMs 在“相机视角”(egocentric)的空间推理上表现尚可,但在“人类视角”(allocentric)或“第三方视角”任务上表现显著下降。缺乏跨视角的空间理解:
模型无法灵活地在不同实体(人、物体)之间进行空间参考系的转换,而这是人类日常互动中自然而然的能力。训练数据缺乏三维空间标注:
现有的大规模图像-文本对数据缺乏精确的3D空间关系标注,导致模型无法学习到真实的三维空间结构。现有评估基准不足:
已有基准(如EmbSpatial-Bench、VSI-Bench等)大多只评估单一视角或二维空间关系,缺乏对多视角、三维空间推理的系统性评估。
二、提出的解决方案
1.构建了首个多视角空间定位评估基准:ViewSpatial-Bench
- 包含5,712 个问答对,来源包括ScanNet和MS-COCO数据集。
- 涵盖5 种任务类型,分为两类视角:
- 相机视角:
- Cam-Rel. Dir.(物体间相对方向)
- Cam-Obj. Ori.(物体朝向)
- 人类/物体视角:
- Per-Obj. Ori.(从目标物体的视角判断朝向)
- Per-Rel. Dir.(从一个人视角判断另一个人位置)
- Per-Sec. Sim.(站在物体A看向物体B,判断物体C的位置)
- 相机视角:
2.设计了自动化的3D空间标注流水线
- 利用ScanNet 的3D重建数据和MS-COCO 的2D关键点,自动生成:
- 物体之间的方向关系(基于角度映射)
- 头部与身体朝向的偏移(用于判断视线方向)
- 使用Orient-Anything-Large模型计算旋转角度,并通过规则系统(如22.5°~67.5°为“front-right”)标准化为离散方向标签。
3.训练了多视角空间模型(MVSM)
- 基于Qwen2.5-VL-3B进行微调,使用自动生成的约43K 条空间关系数据。
- 多视角微调策略:让模型同时学习相机和人类视角的空间推理,提升跨视角统一表示能力。
4.跨任务与跨数据集验证
- 在VSI-Bench和自建的VSI-App(包含25室内+25室外场景)上进行迁移学习实验,验证模型在真实人机交互场景中的泛化能力。
三、主要实验结果
| 模型 | 相机视角准确率 | 人类视角准确率 | 总体准确率 |
|---|---|---|---|
| GPT-4o | 34.98% | — | 34.98% |
| Qwen2.5-VL (3B) | ~33.2% | ~35.7% | 35.85% |
| MVSM (ours) | — | — | 82.09% |
- MVSM相比于Qwen2.5-VL(3B)提升了46.24个百分点,尤其在人视角物体朝向任务中提升超过50%。
- 在VSI-App上,MVSM在室内场景提升20%,室外场景提升4%,说明室内结构化环境更适配训练分布。
四、核心贡献总结
| 贡献 | 说明 |
|---|---|
| 新基准 | ViewSpatial-Bench:首个系统评估多视角空间定位的基准,涵盖5类任务、5712个样本 |
| 自动化标注流水线 | 可扩展、高效生成3D空间关系数据,支持多视角训练 |
| 新模型 | MVSM:通过多视角微调,显著提升跨视角空间推理能力 |
| 实证发现 | 当前VLMs在视角转换任务上普遍存在系统性缺陷,且训练数据中缺乏3D空间信息是主因 |
五、局限性与未来方向(论文自评)
- 人类视角任务依赖人工标注:Per-Rel. Dir. 任务无法全自动,存在扩展性问题。
- 环境覆盖有限:相机任务主要来自室内ScanNet,户外泛化能力仍需提升。
- 静态场景为主:未涉及动态空间推理(如物体或观察者移动),未来可扩展到时序与运动任务。
开源地址
https://github.com/ZJU-REAL/ViewSpatial-Bench