VIVO新发的,感觉准确度真的高,比litemono都高不少。
网络部分还没有完全弄懂。
简单整理:
核心贡献
- 统一框架:将自监督单帧与多帧深度估计结合,共享权重实现紧凑架构
- 时间增强:通过光流视频插值(VFI)生成虚拟视图,解决遮挡区域的监督不足问题
- VFI辅助多帧融合:
• MAFA(Motion-aware Feature Alignment):利用VFI生成的光流进行特征对齐
• OAFF(Occlusion-alleviated Feature Fusion):使用VFI的遮挡掩码优化特征聚合 - 空间增强:引入仿射变换(旋转+缩放裁剪),保持几何一致性:
$$R_c = K^{-1}RK + K^{-1}[0\ 0\ q]$$ - 三元深度一致性损失:
• SVDC:单帧与多帧深度一致性
• SADC:空间增强前后的尺度感知一致性
方法细节
时间增强流程
$$\begin{aligned}
F_{1→0},F_{1→2},M_1 &= \mathcal{H}(I_0,I_2) \
I_{0→1} &= \omega(I_0,F_{1→0}) \
I_1 &= M_1⊙I_{0→1} + (1-M_1)⊙I_{2→1}
\end{aligned}$$
多帧融合模块
特征对齐:
$$\varphi_{(t-2)→t}^k = \text{Concat}(\phi_{(t-2)→t}^k, g(F_{t→(t-2)}^k))$$
其中$g$为傅里叶位置编码:
$$g(u) = [u,\sin(2^0πu),\cos(2^0πu),…,\sin(2^{S-1}πu),\cos(2^{S-1}πu)]$$
遮挡感知融合:
$$\chi_t^k = M_t^k⊙\varphi_{(t-2)→t}^k + (1-M_t^k)⊙\varphi_{(t+2)→t}^k$$
空间增强几何修正
仿射变换后的位姿修正:
$$\widetilde{R}{t→s} = R_c R{t→s} R_c^{-1}, \quad \widetilde{t}{t→s} = R_c t{t→s}$$
实验发现
- 性能提升:
• KITTI上D-HRNet单帧Abs Rel从0.096→0.091
• Cityscapes动态物体Sq Rel从1.554→1.453 - 关键消融:
• 时间增强+空间增强联合提升最大(Abs Rel↓0.015)
• 傅里叶编码光流提升显著(δ1↑0.8%) - 计算效率:
• 多帧推理MACs 16.9G,比ManyDepth节省23%
• 运行时13.8ms/frame (NVIDIA L40S)
可视化分析

• 灌木丛区域误差显著降低(红色框)
• 远距离物体轮廓更清晰
• 动态物体边缘伪影减少
局限与展望
- 当前限制:
• VFI模型预训练固定,未端到端优化
• 大角度旋转增强可能破坏空间连续性 - 未来方向:
• 联合训练VFI与深度网络
• 引入语义指导处理极端遮挡
• 探索时序更长的特征聚合
$$L_{tc} = \underbrace{SI(D_t^m,D_t)}{SVDC} + \underbrace{SI(\hat{D}_t,f_sD_t)}{SADC} + \underbrace{SI(\hat{D}t,f_sD_t^m)}{SADC^m}$$
此公式体现了深度一致性约束的核心思想,通过多源监督提升几何一致性。实验表明λ=0.2时平衡效果最佳。