OpenAI发布Point-E：文本到3D模型生成的新突破

AI技术在文本到3D模型生成的速度上提升了600倍，代码已开源。最近，文本生成图像的AI技术已经引起了广泛关注，不论是DALL-E 2、DeepAI还是Stable Diffusion，许多人都在利用AI算法进行艺术创作。技术的不断进化推动了文本生成生态的蓬勃发展，甚至催生了独角兽创业公司Stability AI。

技术发展的脚步并没有停滞，OpenAI开源的3D模型生成器Point-E引发了AI圈的新一轮热潮。刚在GitHub上发布一天，就获得了800多个star。根据与开源内容一并发布的论文介绍，Point-E可以在单块Nvidia V100 GPU上在一到两分钟内生成3D模型，相比之下，现有系统（如谷歌的DreamFusion）通常需要数小时和多块GPU。

Point-E不输出传统意义上的3D图像，而是生成点云，即空间中代表3D形状的离散数据点集。Point-E中的E是“效率”的缩写，表示其比以前的3D对象生成方法更快。不过，从计算的角度来看，点云更容易合成，但它们无法捕获对象的细粒度形状或纹理，这是目前Point-E的一个关键限制。为了解决这一问题，OpenAI团队训练了一个额外的人工智能系统来将Point-E的点云转换为网格。

Point-E主要由两个模型组成：文本到图像模型和图像到3D模型。文本到图像模型类似于OpenAI自家的DALL-E 2和Stable Diffusion等生成模型系统，在标记图像上进行训练以理解单词和视觉概念之间的关联。在图像生成之后，图像到3D模型被输入一组与3D对象配对的图像，训练出在两者之间有效转换的能力。

当给出一个文本提示时，例如“一个可3D打印的轮子，一个直径为3英寸、厚度为半英寸的轮子”，AI会生成符合描述的内容。

OpenAI研究人员表示，经过数百万3D对象和相关元数据的数据集上训练后，Point-E拥有了生成匹配文本提示的彩色点云的能力。尽管在图像到3D转换过程中有时无法理解文本叙述的内容，导致生成的形状与文本提示不匹配，但根据OpenAI团队的说法，它仍然比以前的最先进技术快几个数量级。

Point-E的点云可用于制作真实世界的对象，例如通过3D打印制作。再加上额外的网格转换模型，系统在完善后可以用于游戏和动画开发工作流程。虽然当前所有目光都集中在2D艺术生成器上，但模型合成AI可能是下一个重大行业颠覆者。现代电影、视频游戏、VR和AR的CGI效果、空间探索中的测绘任务、古迹遗址保护项目以及Meta等科技公司的元宇宙愿景都需要高性能的3D建模能力。

不过，制作3D模型通常需要一段时间，从几小时到几天不等。如果有一天解决了这一问题，像Point-E这样的AI可以改变很多，并让OpenAI获得可观的利润。潜在的问题是可能会产生知识产权纠纷。3D模型有很大的市场，包括CGStudio和CreativeMarket在内的几个在线市场允许艺术家销售他们创建的内容。

如果Point-E流行起来并投放到市场，模型艺术家们可能会抗议，并拿出现代生成式AI严重依赖其自身训练数据的证据。与DALL-E 2一样，Point-E不承认也没有引用任何可能影响其发展的艺术家的作品。

OpenAI没有明确地说明这一问题，Point-E论文及相应GitHub项目中也都没有提到版权问题。最后，OpenAI研究人员预计Point-E还面临着一些挑战，例如训练数据存在的偏差以及对可能用于创建“危险对象”的模型缺乏保护措施。因此，OpenAI谨慎地将Point-E描述为一个起点，并希望激励文本到3D合成领域进一步发展。按照AI作画发展的速度，我们或许很快就会看到下一轮技术爆发。