Mono-ViFI论文笔记

VIVO新发的,感觉准确度真的高,比litemono都高不少。
网络部分还没有完全弄懂。
简单整理:

核心贡献

  1. 统一框架:将自监督单帧与多帧深度估计结合,共享权重实现紧凑架构
  2. 时间增强:通过光流视频插值(VFI)生成虚拟视图,解决遮挡区域的监督不足问题
  3. VFI辅助多帧融合
    • MAFA(Motion-aware Feature Alignment):利用VFI生成的光流进行特征对齐
    • OAFF(Occlusion-alleviated Feature Fusion):使用VFI的遮挡掩码优化特征聚合
  4. 空间增强:引入仿射变换(旋转+缩放裁剪),保持几何一致性:
    $$R_c = K^{-1}RK + K^{-1}[0\ 0\ q]$$
  5. 三元深度一致性损失
    • SVDC:单帧与多帧深度一致性
    • SADC:空间增强前后的尺度感知一致性

方法细节

时间增强流程

$$\begin{aligned}
F_{1→0},F_{1→2},M_1 &= \mathcal{H}(I_0,I_2) \
I_{0→1} &= \omega(I_0,F_{1→0}) \
I_1 &= M_1⊙I_{0→1} + (1-M_1)⊙I_{2→1}
\end{aligned}$$

多帧融合模块

特征对齐
$$\varphi_{(t-2)→t}^k = \text{Concat}(\phi_{(t-2)→t}^k, g(F_{t→(t-2)}^k))$$
其中$g$为傅里叶位置编码:
$$g(u) = [u,\sin(2^0πu),\cos(2^0πu),…,\sin(2^{S-1}πu),\cos(2^{S-1}πu)]$$

遮挡感知融合
$$\chi_t^k = M_t^k⊙\varphi_{(t-2)→t}^k + (1-M_t^k)⊙\varphi_{(t+2)→t}^k$$

空间增强几何修正

仿射变换后的位姿修正:
$$\widetilde{R}{t→s} = R_c R{t→s} R_c^{-1}, \quad \widetilde{t}{t→s} = R_c t{t→s}$$

实验发现

  1. 性能提升
    • KITTI上D-HRNet单帧Abs Rel从0.096→0.091
    • Cityscapes动态物体Sq Rel从1.554→1.453
  2. 关键消融
    • 时间增强+空间增强联合提升最大(Abs Rel↓0.015)
    • 傅里叶编码光流提升显著(δ1↑0.8%)
  3. 计算效率
    • 多帧推理MACs 16.9G,比ManyDepth节省23%
    • 运行时13.8ms/frame (NVIDIA L40S)

可视化分析

KITTI误差图
• 灌木丛区域误差显著降低(红色框)
• 远距离物体轮廓更清晰
• 动态物体边缘伪影减少

局限与展望

  1. 当前限制
    • VFI模型预训练固定,未端到端优化
    • 大角度旋转增强可能破坏空间连续性
  2. 未来方向
    • 联合训练VFI与深度网络
    • 引入语义指导处理极端遮挡
    • 探索时序更长的特征聚合

$$L_{tc} = \underbrace{SI(D_t^m,D_t)}{SVDC} + \underbrace{SI(\hat{D}_t,f_sD_t)}{SADC} + \underbrace{SI(\hat{D}t,f_sD_t^m)}{SADC^m}$$

此公式体现了深度一致性约束的核心思想,通过多源监督提升几何一致性。实验表明λ=0.2时平衡效果最佳。


   转载规则


《Mono-ViFI论文笔记》 plumbum 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
ESRGAN论文笔记 ESRGAN论文笔记
用gpt整理一下,简单复现了一下这一篇,想提取高阶退化建模部分,但是发现作者居然整合到pip的包里面,尝试了一下最简的降阶,然后用差分网络处理了一下,效果真的可以,比直接的LGFI Block的提取的效果好。摘要与核心贡献Real-ESRG
2025-03-08
下一篇 
Rewrite-The-Stars论文笔记 Rewrite-The-Stars论文笔记
结合gpt简单整理一下,随便拿kitti初步试了以下效果还不错,参量不多效果还过得去。 1. 摘要• 核心贡献:提出star operation(逐元素乘法)能够将输入映射到高维非线性特征空间(类似核技巧),无需增加网络宽度。• StarN
2025-01-18
  目录