目录
一、概述
二、相关工作
1、多视图深度估计
2、单目深度估计
3、单目和多视图深度融合
4、前馈Gaussian Splatting
5、深度估计和3DGS
三、DepthSplat
一、概述
本文提出一种将高斯溅射和深度估计结合来提高两者性能的深度估计方法DepthSplat,并能够在稀疏视角下实现高质量的深度预测和新视角合成,并且在处理纹理不明显的区域、遮挡场景和反射表面下表现更出色。
(1)提出了一种新的深度估计方法DepthSplat,能够在稀疏视角下深度预测和新视角生成。
(2)采用了轻量级的局部特征匹配方法,将DepthSplat扩展到更多输入视角。
(3)提出了一种联合训练深度估计和视角合成的方法,通过深度预训练可以提升GS模型的生成性能。这个深度估计模型可以在大规模无标记的数据集上预训练,并且不需要地面真实几何信息。
二、相关工作
1、多视图深度估计
多视图深度估计利用多个视角之间的光度一致性进行特征匹配,从而预测参考图像的深度图。近年来,许多基于学习的方法被提出以提高深度预测的准确性,如MVSNet使用平面扫描算法构建成本体积并用3D卷积网络进行正则化。但这些方法在处理遮挡、低纹理区域和非朗伯表面等情况下仍存在局限性。
2、单目深度估计
单目深度估计利用单个图像的视觉线索(如遮挡、阴影、大小等)来预测场景的深度信息。与多视图方法相比,单目深度估计受到尺度模糊影响,不能产生多视图一致的深度预测,这也对于下游任务如3D重建,视频深度估计至关重要。
该论文考虑使用预训练的单目深度模型来增强基于特征的多视图深度估计,提高在低纹理、反射表面情况的鲁棒性。
3、单目和多视图深度融合
近期有研究尝试将单目和多视图深度估计进行融合,以利用两种方法的优势。例如,通过在Gaussian Splatting优化过程中引入深度损失函数来进行正则化。这种融合方法与本文提出的前馈DepthSplat模型是正交的,前者主要关注损失函数的设计,而后者则侧重于探索先进的网络架构和大规模训练数据的威力。
4、前馈Gaussian Splatting
pixelSplat,Splatter Image从图像特征预测3DGS,MVSplat利用成本体积编码特征匹配信息,实现更好地几何形状。
LGM、GRM、GS-LRM等工作严重依赖于训练数据和计算,丢弃显式特征匹配,导致训练成本较高。
对于无纹理和反射表面受到特征匹配的限制,该论文中考虑用预训练的单目深度估计模型来用于下游的多视图深度估计和3DGS重建。
5、深度估计和3DGS
同时存在的一项工作是在前馈的高斯溅射优化过程中引入额外的深度损失,而本论文考虑更优的网络架构和大规模数据集的影响。
三、DepthSplat
DepthSplat包括四个部分:多视图特征提取分支,单目特征提取分支,深度回归模块,高斯参数预测模块。输入多视角图像,分别通过多视图特征提取分支和单目特征分支来提取特征信息,并进行拼接,之后使用2D U-Net进行深度回归,输出最终的深度图。在深度图的基础上,使用轻量化的GS预测网络头来预测每个像素的高斯参数,并根据深度图和GS参数来渲染3DGS,实现新视角合成。
参考论文:DepthSplat: Connecting Gaussian Splatting and Depth
项目指北:DepthSplat