英伟达推出文本到3D生成AI大模型LATTE3D,就像虚拟 3D 打印机一样,LATTE3D可在一秒钟内将文本提示转换为物体和动物的 3D 表示
生成的形状采用用于标准渲染应用程序的流行格式制作,可以轻松地在虚拟环境中提供,用于开发视频游戏、广告活动、设计项目或机器人虚拟训练场
LATTE3D 在单个 GPU(例如NVIDIA RTX A6000 )上运行推理时可以几乎立即生成 3D 形状
一年前,人工智能模型需要一个小时才能生成这种质量的 3D 视觉效果,而目前的最先进水平约为 10 到 12 秒。基于英伟达人工智能实验室的团队开发的LATTE3D现在1秒产生结果,使各行业的创作者能够实现近乎实时的文本到 3D 生成
本研究由英伟达多伦多人工智能实验室完成,相关结果以论文LATTE3D:大规模摊销文本增强型3D合成
已经发表在[arXiv]
论文链接:https://arxiv.org/abs/2403.15385
LATTE3D 关键创新
Latte3D的成功有赖于两个关键创新:专为3D设计的新型网络结构,以及在训练过程中引入先验的3D几何知识
专为3D设计的新型网络结构:研究人员设计了一种新型的"双通道"网络结构,以分别学习3D物体的几何形状和纹理细节。这种结构类似于人类大脑两个半球的分工模式,专门为生成3D内容进行了优化
双网络架构:Latte3D的核心架构包括两个独立但相互配合的网络:一个负责几何建模(Geometry Network, G),生成3D形状的结构;另一个负责纹理生成(Texture Network, T),赋予形状细腻的表面细节。这种分工明确的双网络设计使得模型能够高效地处理3D内容生成的两个核心方面
权重共享与解耦:在训练的第一阶段,几何网络G和纹理网络T的编码器部分共享权重,通过单一输入编码器共同学习,有效减少参数量并提高信息传递效率。进入第二阶段的表面细化时,G网络保持冻结,仅更新T网络,通过加入额外的可训练上采样层,确保纹理细节的精细化生成,而不会影响已建立的良好几何结构
训练过程中引入先验的3D几何知识:Latte3D在训练过程中,不仅学习二维图像和文字的关联,还利用先验的3D知识对生成结果进行调节,从而提高了生成质量和鲁棒性
3D感知扩散先验:Latte3D在优化过程中运用3D感知的图像扩散模型作为先验知识,为神经场生成提供稳定的梯度指导,增强了模型在生成高频率几何细节和复杂纹理时的表现力
形状正则化:模型训练中引入形状正则化损失,通过比较生成形状的渲染遮罩与3D资产库中对应形状的遮罩,确保生成结果与已知的3D数据保持一致性,增强了生成模型的几何精确度
模型初始化与预训练:通过在大规模3D资产数据集上进行图像重建预训练,模型获得了对3D形状编码和解码的能力,这为后续的文本条件优化奠定了坚实的基础,有助于稳定训练过程并提升最终生成模型的性能
LATTE3D 能力评估:可视化
评估目标:测试LATTE3D模型能否成功应对任意(arbitrary)提示,即不论提示的具体内容如何,模型都能做出合理的响应或预测。这意味着模型需要具备在训练过程中未直接接触过的各种提示情境下工作的能力,即模型具有强大的泛化能力
注意:LATTE3D目前只在两个特定数据集(动物和日常物体)上训练 LATTE3D
对未见过但是与训练文本相似的提示的泛化能力:
对未见过且与训练文本完全不同的提示泛化能力:
个性化风格泛化能力:
组合文本提示(训练集中有的)风格化泛化能力:
组合文本提示(训练集没有的)风格化泛化能力
LATTE3D模型优点
优点1:快速组装场景
用户可以通过快速迭代单个对象的设计或他们使用的对象集合,快速设计整个场景。 |
优点2:通过测试时间优化提高质量
当用户希望进一步提高任何提示的质量时,支持可选的快速测试时间优化 |
优点3:通过插值增强用户可控性
允许用户引导泛化到用户提供的形状(作为点云),这是用于文本图像生成的图像调节的 3D 模拟。为此,对点云正则化权重进行摊销优化,用户可以在推理时以低成本控制权重。当权重较高时,恢复点云的形状,而当权重较低时,文本提示主要指导模型的生成 |
结语
虽然研究人员在两个特定数据集(动物和日常物体)上训练 LATTE3D,但开发人员可以使用相同的模型架构在其他数据类型上训练人工智能
例如,如果在 3D 植物数据集上进行训练,LATTE3D 的一个版本可以帮助景观设计师在与客户进行头脑风暴时快速填充树木、开花灌木和多肉植物的花园渲染图。如果在家庭物品上进行训练,该模型可以生成填充家庭 3D 模拟的物品,开发人员可以使用这些物品来训练个人助理机器人,然后再在现实世界中进行测试和部署
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
虚拟3d打印机👇👇