高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

在三维生成建模的研究领域,现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器,要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube,这是一种具有强大拟合能力的显式结构化三维表示,并且可以无缝应用于目前主流的 3D 扩散模型中。

GaussianCube 首先采用一种新颖的密度约束高斯拟合算法,该算法能够对 3D 资产进行高精度拟合,同时确保使用固定数量的自由高斯。随后,借助最优传输算法,这些高斯被重新排列到一个预定义的体素网格之中。得益于 GaussianCube 的结构化特性,研究者无需复杂的网络设计就能直接应用标准的 3D U-Net 作为扩散建模的主干网络。

更为关键的是,本文提出的新型拟合算法极大地增强了表示的紧凑性,在 3D 表示拟合质量相似的情况下所需的参数量仅是传统结构化表示所需参数量的十分之一或百分之一。这种紧凑性大幅降低了 3D 生成建模的复杂性。研究人员在无条件和条件性 3D 对象生成、数字化身创建以及文本到 3D 内容合成等多个方面开展了广泛的实验。

数值结果表明,GaussianCube 相较之前的基线算法实现了最高达 74% 的性能提升。如下所示,GaussianCube 不仅能够生成高质量的三维资产,而且还提供了极具吸引力的视觉效果,充分证明了其作为 3D 生成通用表示的巨大潜力。

表 1. 在 ShapeNet Car 上不同的三维表示关于空间结构、拟合质量、相对拟合速度、使用参数量的数值比较。* 表示不同物体共享隐式特征解码器。所有方法均以 30K 次迭代进行评估。

图 1. 无条件生成的结果。本文的方法可以生成高质量、多样化的三维模型。

图 12. 基于输入文本创建三维资产的定性比较。本文的方法可以根据输入文本实现高质量三维资产生成。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF

https://www.gptnb.com/2024/06/18/2024-06-17-auto5-wEkQpJ/

作者

ByteAILab

发布于

2024-06-18

更新于

2025-03-21

许可协议