仅需1分钟！Meta携3DGen闯入文生3D赛道-格隆汇

Meta最新的AI模型3DGen可以在1分钟内基于用户输入的指令，生成高质量的3D内容。

据介绍，3DGen能够在不到1分钟的时间，根据文本提示词快速生成具有高分辨率纹理和材质贴图的3D内容，速度是现有其它系统的3-10倍。它还可根据新提示词给出的需求，在20秒内重新调整原3D资产的纹理，实现快速迭代。

PBR为最大亮点

论文介绍称，3DGen具备三大技术亮点：高速生成、高保真度及支持物理基础渲染（PBR），而PBR则是重中之重。

PBR全称Physically-Based Rendering，可以模拟光在物体表面的物理行为，考虑光照、材质属性和环境因素对物体外观的影响，并根据物体表面的不同特性（粗糙度、金属感等）计算光线的反射、散射和吸收，从而实现更加真实和准确的渲染效果。

此前，AI生成的3D资产通常不具备真实的光照和材质属性，从而限制了它们在实际应用中的实用性，游戏开发、VR/AR应用以及电影特效就是最典型的例子。

通过支持PBR底层网格结构的完全3D模型，其生成的3D资产就能用于真实的建模和渲染应用程式。另外，3D Gen还分离了底层网格模型和纹理，使用户无须调整底层模型便可调整纹理样式。

因此，PBR很有可能弥合AI生成内容与专业3D工作流程之间长期存在的问题，将AI创建的素材无缝集成到现有工作流程中。

论文中，Meta详细介绍了3DGen的运行原理。

3DGen由两大关键技术组件集合而成——“文本到图像”生成器AssetGen，以及“文本到纹理”生成器TextureGen。

具体来讲：

文本到图像：AssetGen主要用于创建初始的3D资产，也就是纹理较粗糙、带有PBR材质贴图的3D网格素材（3D mesh）。这一过程耗时仅为30秒。

首先，利用一个多视角、多通道版本的图像生成器生成多张图像，随后生成物体的一致视图。

此后，再重建网络在体积空间中提取出物体的初始版本，并进行网格提取，确立其3D形状和初始纹理。

通过在2D空间中将文本生成模型与3D语义条件结合，利用视图空间和UV空间的生成结果，使初始3D资产融合成完整且具有高分辨率的UV纹理映射，在保持指令忠实度的同时提升纹理质量。

可以说，AssetGen和TextureGen是两个优势互补的模型，它们一同实现了视图空间（物体图像）、体积空间（3D形状和外观）以及UV空间（纹理）的高度互补，显著提高了3D生成的效果。

在评估阶段，Meta邀请了专业艺术家和普通人对生成效果进行打分，并选取了多个目前可以访问的3D生成模型作为比较对象。

最终，3DGen在3D形状生成和纹理生成两方面的忠实度评分均高于其他模型。在按照生成对象类型分类的打分结果中，3DGen在物体和组合场景中的忠实度排名第一，而在人物的忠实度上则略微逊色。而且，专业艺术家评价称，3DGen的处理速度要快3到60倍不等。

目前，3D生成技术已应用在不少行业之中。例如，3D生成初创企业Meshy AI发布的免费3D模型Meshy目前已被大量独立游戏开发者使用。

而虽然Meta此次对AssetGen和TextureGen的整合简单明了，但它提出了两个非常有前途的研究方向：在视图空间和UV空间中的生成，以及纹理和形状生成的端到端迭代。

不可否认的是，AI 3D生成技术的快速发展对实现3D建模行业的技术迭代具有重大意义，而Meta再次成为了领路人。