论文一作李放,美国伊利诺伊大学香槟分校 (UIUC) 博二学生,研究方向为 4D 视觉定位、重建/新视角合成以及理解。第二作者为美国伊利诺伊大学香槟分校博四学生张昊。通讯作者是 Narendra Ahuja, 美国伊利诺伊大学香槟分校 Donald Biggar Willet Professor(Ming-hsuan Yang, Jia-bin Huang 博士导师)。这篇工作为作者在博一期间完成。
研究背景
在三维重建、NeRF 训练、视频生成等任务中,相机参数是不可或缺的先验信息。传统的 SfM/SLAM 方法(如 COLMAP)在静态场景下表现优异,但在存在人车运动、物体遮挡的动态场景中往往力不从心,并且依赖额外的运动掩码、深度或点云信息,使用门槛较高,而且效率低下。
纵使在 3R 时代下,三维与四维前馈模型可以高效产出相机相对位姿与点云结构,但 3R 模型本质上仍存在很多痛点。3R 模型对部署硬件容量需求大 (大 GPU), 对丰富高精度训练数据需求大,易发生场景漂移。而且目前基于 3R 模型的衍生品们仍无法做到同时解决这些问题。Per-scene optimization 的方法常常依赖多种监督和先验,同时优化效率低下。
这让作者重新思考:有没有一种方法可以从动态场景视频准确、高效、稳定地预测相机参数,不受前景运动物体的影响,且仅用一段 RGB 视频作为监督呢?
方法概览
为了实现这一目的,他们提出了ROS-Cam(RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes),已被 NeurIPS 2025 接收为 Spotlight 论文。代码即将开源。
