039单目与多目深度估计的区别

单目与多目深度估计的区别¶

“单目”指的是使用单张图像（即只有一个视角或镜头）来获取深度信息。与之相对的是双目或多目深度估计，后者使用两个或多个摄像头来获取深度信息，这个表格能帮助你更好地理解和对比单目深度估计与双目或多目深度估计的特点和应用场景。

特征	单目深度估计	双目或多目深度估计
输入	单张图像	多张图像（通常从不同视角拍摄）
挑战	- 尺度模糊性：无法直接提供绝对深度信息 - 光照影响：光照变化影响估计准确性 - 遮挡和反射：遮挡物和反射表面干扰深度信息提取	- 设备复杂性：需要多个摄像头 - 计算复杂性：处理多张图像需要更多的计算资源
优势	- 设备简单：只需一个摄像头 - 适用范围广：适合资源受限的设备，如智能手机、无人机等	- 直接计算深度：通过视差直接计算深度，准确性高
工作原理	- 利用纹理、颜色、阴影、几何结构和上下文等视觉线索 - 通过学习和模型训练来估计深度	- 通过视差（不同视角下的位置差异）直接计算深度
应用	- 3D 重建 - 增强现实 - 自动驾驶辅助系统 - 机器人导航（资源受限环境）	- 自动驾驶汽车 - 机器人导航（高精度要求） - 工业检测和测量
典型模型	- Depth Anything V2 - ZoeDepth	- Stereo Matching - Structure from Motion (SfM)

单目深度估计是一项计算机视觉任务，涉及从单个图像中预测场景的深度信息。换句话说，它是从单个摄像头视角估计场景中物体距离的过程。

单目深度估计有多种应用，包括 3D 重建、增强现实、自动驾驶和机器人技术。这是一项具有挑战性的任务，因为它需要模型理解场景中物体之间的复杂关系以及相应的深度信息，这些信息可能会受到光照条件、遮挡和纹理等因素的影响。

深度估计主要分为两类：

绝对深度估计：这种任务变体旨在提供从摄像头到物体的确切深度测量值。这个术语通常与度量深度估计互换使用，其中深度以米或英尺等精确单位表示。绝对深度估计模型输出的深度图包含代表真实距离的数值。
相对深度估计：相对深度估计旨在预测场景中物体或点的深度顺序，而不提供精确的测量值。这些模型输出的深度图显示哪些部分更靠近或远离，但不提供实际的距离。

在本指南中，我们将介绍如何使用 Depth Anything V2（一种最先进的零样本相对深度估计模型）和 ZoeDepth（一种绝对深度估计模型）进行推断。

查看深度估计任务页面，以查看所有兼容的架构和检查点。

在开始之前，我们需要安装最新版本的 Transformers：