TikTok发布了名为”Depth Anything”的单目深度估计解决方案

51次阅读

共计 815 个字符，预计需要花费 3 分钟才能阅读完成。

TikTok 发布了名为 ”Depth Anything” 的单目深度估计解决方案，Depth Anything 是在 150 万张标记图像和 6200 万 + 无标签图像的联合训练下得到的，提供了最强大的单目深度估计（MDE）基础模型，它可以从大规模的无标注数据中学习以提高模型的泛化能力。该方法利用已有的标注数据集训练教师模型，然后利用教师模型对大规模无标注数据进行伪标签，最后将标注数据和伪标签的数据集用于训练学生模型。为了增强模型的泛化能力，作者提出在模型学习无标注数据时采用更具挑战性的优化目标，以迫使模型从无标注数据中主动获取更多的视觉知识。另外，作者还提出利用预训练的编码器为学生模型提供丰富的语义先验知识，以提高模型的场景理解能力。实验结果表明，该方法可以显著提升模型的零样本泛化能力，并且在多个下游任务中表现优异，如在深度估计和语义分割任务中均取得了新的最优结果。