Jiatong Guo May 1, 2026

计算机视觉领域正在走进历史的垃圾堆？

“许多被当作学科核心的问题，可能只是时代能力不足时留下的脚手架。”

传统 CV 为何是一套脚手架

作者认为传统 CV 把视觉拆成分类、分割、光流、三维重建、SLAM 等中间任务，并不是因为这些任务天然等同于智能，而是历史条件下的折中：当端到端学习感知到行动的闭环还不可行时，科学家只能先定义一些能被标注、能被评测、能发论文的中间问题。

Sutton 在 2019 年写的 AI 发展七十年的苦涩教训指出，长期来看，真正取胜的方法往往不是人类精心雕刻的聪明算法或结构，而是能吞下更多数据和算力的通用学习方法。随着数据和算力膨胀，人工设计的模块、先验和表示会逐渐变成瓶颈，倒不如把人设计的领域知识从机器的推理路径中剥离出来。

很多 CV 研究者已经接受了算法层面的苦涩教训：手工特征会被深度网络取代，复杂管线会被大模型吸收。一个典型例子是 VGGT——2025 年 CVPR 的 best paper。

未来的视觉模型不该止步于输出 mask、点云或相机位姿，更要融入能行动、能达成目标的智能体。显式 3D 表征甚至相机位姿，作者都预测会从主线退场。

也许可以这么理解，CV 正在从“表征正确性”走向“后果正确性”。过去我们在意一张图里的物体分得准不准、三维重建合不合理；未来更关键的问题也许是，机器接受视觉输入之后有没有把杯子稳稳拿起、有没有避开障碍物、有没有把含糊的指令变成可靠的行动。

对 CV 研究者来说，这意味着 loss function 乃至领域评价体系的重构。

我认为未必。3D 表征不会简单消失，但消失的可能是把 3D 当成必经步骤的工程范式。显式表征仍可以作为监督信号和调试窗口长期存在；今天的机器人系统也常依赖深度、位姿、关节状态等低维几何信息来提高效率和稳定性。

更准确地说，显式表征会降级：从 Ground Truth 降为工具，从模型内部表征必须走的路，变成人类理解和约束模型的一种语言。

所以，计算机视觉是不是正在走进历史的垃圾堆？我的回答是：如果 CV 指的是一组孤立的中间任务和排行榜，它确实会被更大的智能系统吞没；但若 CV 指的是从感知中提炼出与行动相关的结构性能力，它不仅不会消失，反而会变得更重要。

只是它会换一种形式存在：不再站在世界外面做标注，而是在机器与世界交互的循环里，学会为了行动而看见。

这条路比任何一个 benchmark 都更长，但我相信，也更值得走。

computer vision