Jiatong Guo Jiatong Guo

计算机视觉领域正在走进历史的垃圾堆?

——读 Vincent Sitzmann 的 “The flavor of the bitter lesson for computer vision” 有感。

“许多被当作学科核心的问题,可能只是时代能力不足时留下的脚手架。”

传统 CV 为何是一套脚手架

作者认为传统 CV 把视觉拆成分类、分割、光流、三维重建、SLAM 等中间任务,并不是因为这些任务天然等同于智能,而是历史条件下的折中:当端到端学习感知到行动的闭环还不可行时,科学家只能先定义一些能被标注、能被评测、能发论文的中间问题。

Sutton 在 2019 年写的 AI 发展七十年的苦涩教训指出,长期来看,真正取胜的方法往往不是人类精心雕刻的聪明算法或结构,而是能吞下更多数据和算力的通用学习方法。随着数据和算力膨胀,人工设计的模块、先验和表示会逐渐变成瓶颈,倒不如把人设计的领域知识从机器的推理路径中剥离出来。

苦涩教训在视觉里的延伸

很多 CV 研究者已经接受了算法层面的苦涩教训:手工特征会被深度网络取代,复杂管线会被大模型吸收。一个典型例子是 VGGT——2025 年 CVPR 的 best paper。

未来的视觉模型不该止步于输出 mask、点云或相机位姿,更要融入能行动、能达成目标的智能体。显式 3D 表征甚至相机位姿,作者都预测会从主线退场。

从表征正确性到后果正确性

也许可以这么理解,CV 正在从“表征正确性”走向“后果正确性”。过去我们在意一张图里的物体分得准不准、三维重建合不合理;未来更关键的问题也许是,机器接受视觉输入之后有没有把杯子稳稳拿起、有没有避开障碍物、有没有把含糊的指令变成可靠的行动。

对 CV 研究者来说,这意味着 loss function 乃至领域评价体系的重构。

显式 3D 表征已死,latent 万岁?

我认为未必。3D 表征不会简单消失,但消失的可能是把 3D 当成必经步骤的工程范式。显式表征仍可以作为监督信号和调试窗口长期存在;今天的机器人系统也常依赖深度、位姿、关节状态等低维几何信息来提高效率和稳定性。

更准确地说,显式表征会降级:从 Ground Truth 降为工具,从模型内部表征必须走的路,变成人类理解和约束模型的一种语言。

不是消失,而是换一种形式存在

所以,计算机视觉是不是正在走进历史的垃圾堆?我的回答是:如果 CV 指的是一组孤立的中间任务和排行榜,它确实会被更大的智能系统吞没;但若 CV 指的是从感知中提炼出与行动相关的结构性能力,它不仅不会消失,反而会变得更重要。

只是它会换一种形式存在:不再站在世界外面做标注,而是在机器与世界交互的循环里,学会为了行动而看见。

这条路比任何一个 benchmark 都更长,但我相信,也更值得走。

computer vision