新闻
2026-04-23 02:48 点击次数:187

单目深度筹办新效果来了!开云体育
西湖大学 AGI 实验室等提议了一种改进性的蒸馏算法,告捷整合了多个开源单目深度筹办模子的上风。
在仅使用 2 万张无标签数据的情况下,该秩序权贵晋升了筹办精度,并刷新了单目深度筹办的最新 SOTA 性能。
这一技能冲破不仅晋升了单目深度筹办的鲁棒性,还大幅裁汰了对标注数据的依赖,使得该技能大致更容易地应用于数据匮乏的场景。
此外,单目深度筹办的逾越也进一步推动了 2D 到 3D 内容调节技能,使得单张图片的 3D 建模愈加精确高效。跟着这一商榷的激动,单目深度筹办将在更多畛域完毕高效、低资本的三维感知,为东说念主工智能和打算机视觉的发展提供更强有劲的救助。

该效果由西湖大学 AGI 实验室、浙江工业大学等单元的商榷东说念主员共同完成的。
现在,该商榷的推理代码、模子和 Demo 仍是上线,感意思意思的读者不错通过著作终末的畅达体验并试用该技能。

自动驾驶、考古中都会使用单目深度筹办
在打算机视觉畛域,单目深度筹办是一项备受关爱的任务,它大致仅凭一张 RGB 图像推测场景的深度信息,为三维空间的重建提供了关节救助。比较于依赖多录像头或激光雷达的传统深度感知技能,单目深度筹办具有低资本、易部署的上风,因此在多个畛域展现出广袤的应用远景。
单目深度筹办的应用范围极其往时,在自动驾驶中,车辆需要精确感知周围环境的深度信息,以确保安全驾驶和高效避障;在机器东说念主导航方面,深度筹办增强了机器东说念主的环境感知智力,使其大致自主方向旅途、逃匿拦阻物;在增强现实(AR)和造谣现实(VR)技能中,可靠的深度筹办能使造谣对象更当然地融入现实寰球,为用户带来更具千里浸感的体验。

此外,在考古学和文化遗产保护方面,该技能大致对历史文物进行精确的三维重建,幸免传统测量技能的毁感冒险。影视制作和游戏缔造高度依赖深度信息来完毕传神的光影效果和环境渲染,增强千里浸式体验。在 2D 和 3D 生成畛域,单目深度筹办技能也施展着伏击作用。
举例,在图像生成与编订中,深度信息可用于生成视差效果、动态光照调节、甚而是从单张图片中推理出完好的三维结构。在 AI 运转的内容生成(如造谣变装建模、数字孪生)中,单目深度筹办提供了刚劲的几何信息救助。建筑与室内设想也受益于单目深度筹办,设想师不错讹诈该技能快速构建三维模子,完毕造谣预览,优化空间讹诈。
尽管单目深度筹办领有雄壮的后劲,但其濒临的挑战不异拦阻冷漠。在不同光照要求、复杂纹理、动态场景等情况下,现存秩序的鲁棒性和精度仍然存在晋起飞间,罢显然单目深度筹办在试验应用中的可靠性。此外,深度筹办模子时常依赖大范围标注数据进行考研,而获得高质料深度数据集资本较高,这进一步罢显然其实行。
Distill Any Depth恰是为此而来。
它提议了一种基于跨高下文与多西宾模子的蒸馏框架,大致同期从多个深度筹办模子中学习,从而晋升深度筹办的精度和鲁棒性。具体完毕流程如下:
单目深度筹办伪标签蒸馏的瓶颈:归一化问题
单目深度筹办技能旨在通过单张 RGB 图像推断场景的深度信息,往时应用于自动驾驶、增强现实及 3D 场景理解等多个畛域。跟着技能的不休逾越,商榷者们渐渐提议了更为改进的措置决议,尤其是在归一化深度暗意和伪标签蒸馏学习秩序方面,前者通过优化深度表征,后者则借助大范围无标签数据来提高模子的泛化智力。尽管这些秩序在一定进程上推动了深度筹办技能的发展,但仍存在一个权贵瓶颈——归一化处理样式的选择。
现在,基于蒸馏的深度筹办秩序频繁依赖全局归一化计谋,尽管该计谋大致在一定进程上晋升模子的清静性,但却放大了噪声伪标签,进而裁汰了蒸馏的效果。这一问题尤为隆起,尤其在面对复杂的场景时,归一化处理时常罢显然模子的性能。因此,若何克服这一挑战,并在蒸馏流程中提高信息传递与学习着力,成为了刻下商榷中的中枢问题。
在图示中,商榷东说念主员比较了两种对王人计谋:
全局最小二乘法:在对王人前对通盘这个词图像进行归一化。
局部最小二乘法:在编订区域内进行归一化对王人。

如图所示,局部归一化计谋相较于全局归一化,在局部区域的准确性上阐明更好。全局归一化会影响到局部精度,而局部归一化则能更好地保留细节信息,因此局部归一化在晋升模子性能方面具有更大的后劲。
改进冲破:更细化、多西宾蚁合的伪标签蒸馏算法
基于以上的发现,针对传统深度归一化秩序中存在的问题,商榷团队进行了记忆分析,并提议两项改进性技能:
1、系统性分析不同深度归一化计谋对伪标签蒸馏的影响:商榷团队深入探讨了全局归一化和局部归一化在蒸馏流程中的作用,重心分析了它们对模子性能的影响。尽头是在缜密化深度预测中,局部归一化相较于全局归一化,大致更好地保留局部细节信息并减小噪声伪标签的影响。通过实验发现,羼杂归一化秩序联接了全局和局部的深度信息,灵验提高了预测精度。下图展示了不同归一化计谋下,红点标记的归一化区域内的像素散播,结束标明,羼杂归一化在多个场景中均阐明出了优异的性能。

跨高下文蒸馏:针对蒸馏流程中的信息传递问题,商榷团队提议了一种联接局部和全局深度信息的蒸馏框架——"跨高下文蒸馏"。该框架通过优化伪标签质料,提高了模子的鲁棒性,具体分为两种场景:
分享高下文蒸馏:西宾模子与学生模子使用酌量的图像进行蒸馏,使得两者之间的深度信息保抓一致。
局部 - 全局蒸馏:在该模式下,西宾模子专注于叠加区域进行深度预测,而学生模子则在通盘这个词图像上进行预测。通过局部 - 全局亏蚀,确保了局部与全局预测的一致性,从而使得学生模子大致同期学习细节与全局结构,权贵晋升了深度筹办的精度与鲁棒性。

2、多西宾蒸馏框架:为了进一步增强蒸馏效果,商榷团队引入了多西宾模子机制。在每次考研迭代时,飞速选择一个西宾模子为无标签图像生成伪标签。不同西宾模子的互补上风为蒸馏流程提供了更多的学问,使得学生模子大致概括多个视角的深度筹办信息。通过这种多西宾框架,深度预测的清静性和准确性得到了权贵提高,尽头是在面对各类化场景时,模子展现出了更强的鲁棒性。

实验结束
在多个公开基准数据集上的实验结束标明," Distill Any Depth " 秩序在定量和定性分析中均阐明出了权贵的性能上风,尤其在稀薄环境中的深度筹办任务中,所提议的秩序权贵晋升了模子的鲁棒性和泛化智力。
定性分析商榷团队展示了来自" Distill Any Depth "秩序与其他经典深度筹办模子(如 MiDaS v3.1、DepthAnythingv2、Marigold 等)的深度筹办结束。与现存的来源进秩序比较,团队提议的模子在细节档次上阐明得愈加精确,尽头是在图像中标注位置(如玄色箭头所示)的深度筹办上,展现了更细粒度的深度筹办效果。

同期底下的久了例子标明,尽头是在复杂环境下(如简笔画、头发、卡通场景等),该秩序依然大致产生走漏的边际和更详备的深度图,展示了其超卓的鲁棒性和精度。

定量分析:
实验结束显现,基于新提议的蒸馏框架,模子在不同 benchmark 下的深度筹办阐明权贵优于现存来源进秩序。尤其是在 NYUv2、ScanNet 等结构化室内场景和 KITTI、DIODE、ETH3D 等复杂的户外环境下,所提议的秩序都展现出了刚劲的泛化智力。优化伪标签蒸馏和深度归一化后,学生模子不仅卓著了西宾模子,还在多个基准测试中创下了新的 SOTA,充分诠释了该秩序的灵验性。

记忆与预测
总体而言," Distill Any Depth "秩序通过引入改进的多西宾蒸馏框架和跨高下文蒸馏技能,权贵提高了单目深度筹办的精度和鲁棒性。该秩序告捷克服了传统深度归一化计谋的局限,为无标签数据的灵验讹诈提供了全新的想路和措置决议。通过这种技能,深度筹办的性能不仅得到了晋升,也为进一步拓展深度筹办的应用场景奠定了基础。
跟着该秩序的不休优化和实行,将来有望在自动驾驶、3D 重建、增强现实以及 AGI 等畛域中施展伏击作用。尽头是在复杂场景下的应用中,权衡该秩序大致进一步晋升模子的泛化智力和实用性,从而推动关联畛域技能的冲破与逾越。
预测将来," Distill Any Depth "秩序仍有进一步发展的空间,尤其是在算法优化、打算着力和跨畛域相宜性等方面,跟着更多改进的出现,单目深度筹办技能将在更多试验应用中取得权贵进展。
在线试用:
https://huggingface.co/spaces/xingyang1/Distill-Any-Depth
论文畅达:https://arxiv.org/abs/2502.19204
技俩主页:https://distill-any-depth-official.github.io/
代码仓库:https://github.com/Westlake-AGI-Lab/Distill-Any-Depth
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 技俩主页畅达,以及关系样式哦
咱们会(尽量)实时回话你

一键关爱 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「防御心」
迎接在挑剔区留住你的主见!开云体育
Powered by Kaiyun网页版·「中国」开云官方网站 登录入口 @2013-2022 RSS地图 HTML地图