苹果AI团队打造“深度先锋”:单张图片生成3D深度图,颠覆AR和自动驾驶
苹果的AI研究团队近日发布了一款名为“深度先锋”(Depth Pro)的全新模型,它有望彻底改变机器感知深度的能力,并对增强现实、自动驾驶等多个领域产生深远影响。
深度先锋能够在不到一秒的时间内,仅凭一张二维图像生成详细的3D深度图,而无需依赖传统深度估计模型所需的相机数据。这项技术在单目深度估计领域取得了重大突破,其研究论文名为“深度先锋:不到一秒钟实现清晰的单目度量深度”。
深度先锋的创造者,由Aleksei Bochkovskii和Vladlen Koltun领导,将其描述为同类系统中最快速、最精确的模型之一。它在实时空间感知至关重要的各个领域都拥有广泛的应用前景。
深度先锋在捕捉细节方面表现出色,例如毛发和鸟笼的金属丝,它能在0.3秒内生成清晰、高分辨率的深度图,在准确性和细节方面超越其他模型。(图片来源:arxiv.org)
单目深度估计一直是一项极具挑战的任务,需要多张图像或焦距等元数据才能准确地估计深度。然而,深度先锋突破了这些限制,仅需0.3秒就能在标准GPU上生成高分辨率深度图。该模型可以创建225万像素的深度图,并具有非凡的清晰度,甚至可以捕捉到其他方法往往忽略的细微细节,例如头发和植被。
研究人员在论文中解释说:“这些特性得益于一系列技术贡献,包括用于密集预测的高效多尺度视觉Transformer。”这种架构使模型能够同时处理图像的整体上下文和更精细的细节,这与之前速度较慢、精度较低的模型相比,是一个巨大的飞跃。
深度先锋在捕捉细节方面表现出色,例如鹿的毛发、风车叶片和斑马的条纹,它能在0.3秒内生成清晰、高分辨率的深度图。(图片来源:arxiv.org)
深度先锋真正与众不同之处在于它能够估计相对深度和绝对深度,这种能力被称为“度量深度”。这意味着该模型可以提供真实世界的测量结果,这对增强现实(AR)等应用至关重要,因为虚拟物体需要放置在物理空间中的精确位置。
深度先锋无需在特定领域的数据集上进行大量训练就能做出准确的预测,这种特性被称为“零样本学习”。这使得该模型具有高度的通用性。它可以应用于各种图像,而无需通常在深度估计模型中所需相机特定数据。
作者解释说:“深度先锋在任意图像上生成具有绝对尺度的度量深度图,而无需相机内参等元数据。”这种灵活性开辟了无限的可能性,从增强AR体验到提高自动驾驶汽车检测和避障能力。
对于那些希望亲身体验深度先锋的人来说,Hugging Face平台上提供了一个实时演示。
深度估计模型在多个数据集上的比较。深度先锋在整体排名中位居榜首,平均排名为2.5,在各种场景下的准确性方面超越了深度Anything v2和Metric3D等模型。(图片来源:arxiv.org)
这种通用性对各个行业都具有重大意义。例如,在电子商务领域,深度先锋可以让消费者只需用手机摄像头对准房间,就能看到家具在房间里的摆放效果。在汽车行业,从单个摄像头生成实时、高分辨率深度图的能力可以提高自动驾驶汽车感知周围环境的能力,从而提升导航和安全性。
研究人员写道:“该方法应该理想地在零样本模式下生成度量深度图,以准确地再现物体形状、场景布局和绝对尺度。”他们强调了该模型在减少训练更传统AI模型所需时间和成本方面的潜力。
深度估计中最具挑战性的问题之一是处理所谓的“飞点”——由于深度映射错误而看似漂浮在空中的像素。深度先锋直接解决了这个问题,使其特别适用于3D重建和虚拟环境等应用,因为这些应用对精度要求很高。
此外,深度先锋在边界追踪方面表现出色,在清晰地勾勒物体及其边缘方面超越了之前的模型。研究人员声称,它在边界精度方面“以倍数超越其他系统”,这对需要精确物体分割的应用至关重要,例如图像抠图和医学影像。
为了加速深度先锋的应用,苹果将其开源。代码以及预训练模型权重可在GitHub上获取,允许开发人员和研究人员对该技术进行实验和进一步改进。该代码库包含从模型架构到预训练检查点的所有内容,使其他人可以轻松地在此基础上进行构建。
研究团队还鼓励进一步探索深度先锋在机器人、制造和医疗保健等领域的潜力。作者写道:“我们在https://github.com/apple/ml-depth-pro上发布了代码和权重。”这仅仅是该模型的开始。
随着人工智能不断突破技术边界,深度先锋为单目深度估计设定了速度和准确性的新标准。它能够从单个图像生成高质量、实时的深度图,这将对依赖空间感知的各个行业产生广泛的影响。
在一个AI日益成为决策和产品开发核心要素的世界里,深度先锋体现了尖端研究如何转化为实用的现实世界解决方案。无论是改善机器感知周围环境的方式,还是增强消费者体验,深度先锋的潜在应用范围广泛且多样。
正如研究人员总结的那样:“深度先锋在清晰地勾勒物体边界方面,包括头发、毛发和植被等精细结构,显著优于所有先前的工作。”随着其开源发布,深度先锋很快将成为从自动驾驶到增强现实等各个行业的不可或缺的一部分,改变机器和人类与3D环境的交互方式。