大模型与强化学习技术全景:从训练、对齐到推理优化的实战指南
2026/5/13 8:31:18
在学术界(特别是计算机科学、机器人学和认知科学领域),Vision(视觉)和Perception(感知)虽然经常混用,但在严格定义下有明显的层级和范围区别。
简而言之:Vision 是手段(Modality),Perception 是目的(Capability)。Vision 通常指处理视觉信号的具体技术或过程,而 Perception 指的是通过一种或多种传感器获取环境信息并建立对世界“理解”的更高级、更广泛的认知过程。
以下是详细的学术界定与区别:
Vision (Computer Vision / Machine Vision):
Perception (Machine Perception / Robot Perception):
区别点:如果你只用摄像头做检测,这通常被归类为 Computer Vision;如果你结合了 LiDAR 和摄像头来做自动驾驶的障碍物规避,这通常被统称为 Perception System。
在认知科学和机器人流程中,两者处于不同的处理阶段:
Vision (Low-level to Mid-level):
Perception (Mid-level to High-level):
这是两者区别最明显的地方:
| 特征 | Vision (视觉) | Perception (感知) |
|---|---|---|
| 核心定义 | 处理光信号/图像数据的能力 | 解释感官输入以理解环境的能力 |
| 输入数据 | 图像、视频 (2D/3D 像素) | 图像、点云、声音、力触觉、位置信息等 |
| 关键动词 | See (看), Detect (检测), Recognize (识别) | Understand (理解), Estimate (估计), Sense (感觉) |
| 涵盖范围 | 子集 (Subset) | 超集 (Superset),包含 Vision, Audio, Tactile 等 |
| 常见应用 | 人脸识别、医学影像分析 | 自动驾驶环境建模、机器人抓取反馈 |
| 数学工具 | 投影几何、卷积神经网络 (CNN) | 概率论 (贝叶斯估计)、卡尔曼滤波、图优化 |
在学术写作中,如果你讨论的是处理图像的具体算法,请用Vision;如果你讨论的是系统如何通过多传感器融合来理解环境状态,请用Perception。