OpenAI发布Point-E:文本到3D模型生成的新突破

作者: 泽南、杜伟

来源: 机器之心

发布日期: 2022-12-21 16:19:10

OpenAI发布的Point-E是一个新的3D模型生成器,能够在短时间内生成3D点云,提升了生成速度,并引发了AI领域的新热潮。该系统由文本到图像模型和图像到3D模型组成,尽管存在一些限制和版权问题,但其应用前景广阔。

AI技术在文本到3D模型生成的速度上提升了600倍,代码已开源。最近,文本生成图像的AI技术已经引起了广泛关注,不论是DALL-E 2、DeepAI还是Stable Diffusion,许多人都在利用AI算法进行艺术创作。技术的不断进化推动了文本生成生态的蓬勃发展,甚至催生了独角兽创业公司Stability AI。

技术发展的脚步并没有停滞,OpenAI开源的3D模型生成器Point-E引发了AI圈的新一轮热潮。刚在GitHub上发布一天,就获得了800多个star。根据与开源内容一并发布的论文介绍,Point-E可以在单块Nvidia V100 GPU上在一到两分钟内生成3D模型,相比之下,现有系统(如谷歌的DreamFusion)通常需要数小时和多块GPU。

Point-E不输出传统意义上的3D图像,而是生成点云,即空间中代表3D形状的离散数据点集。Point-E中的E是“效率”的缩写,表示其比以前的3D对象生成方法更快。不过,从计算的角度来看,点云更容易合成,但它们无法捕获对象的细粒度形状或纹理,这是目前Point-E的一个关键限制。为了解决这一问题,OpenAI团队训练了一个额外的人工智能系统来将Point-E的点云转换为网格。

Point-E主要由两个模型组成:文本到图像模型和图像到3D模型。文本到图像模型类似于OpenAI自家的DALL-E 2和Stable Diffusion等生成模型系统,在标记图像上进行训练以理解单词和视觉概念之间的关联。在图像生成之后,图像到3D模型被输入一组与3D对象配对的图像,训练出在两者之间有效转换的能力。

当给出一个文本提示时,例如“一个可3D打印的轮子,一个直径为3英寸、厚度为半英寸的轮子”,AI会生成符合描述的内容。

OpenAI研究人员表示,经过数百万3D对象和相关元数据的数据集上训练后,Point-E拥有了生成匹配文本提示的彩色点云的能力。尽管在图像到3D转换过程中有时无法理解文本叙述的内容,导致生成的形状与文本提示不匹配,但根据OpenAI团队的说法,它仍然比以前的最先进技术快几个数量级。

Point-E的点云可用于制作真实世界的对象,例如通过3D打印制作。再加上额外的网格转换模型,系统在完善后可以用于游戏和动画开发工作流程。虽然当前所有目光都集中在2D艺术生成器上,但模型合成AI可能是下一个重大行业颠覆者。现代电影、视频游戏、VR和AR的CGI效果、空间探索中的测绘任务、古迹遗址保护项目以及Meta等科技公司的元宇宙愿景都需要高性能的3D建模能力。

不过,制作3D模型通常需要一段时间,从几小时到几天不等。如果有一天解决了这一问题,像Point-E这样的AI可以改变很多,并让OpenAI获得可观的利润。潜在的问题是可能会产生知识产权纠纷。3D模型有很大的市场,包括CGStudio和CreativeMarket在内的几个在线市场允许艺术家销售他们创建的内容。

如果Point-E流行起来并投放到市场,模型艺术家们可能会抗议,并拿出现代生成式AI严重依赖其自身训练数据的证据。与DALL-E 2一样,Point-E不承认也没有引用任何可能影响其发展的艺术家的作品。

OpenAI没有明确地说明这一问题,Point-E论文及相应GitHub项目中也都没有提到版权问题。最后,OpenAI研究人员预计Point-E还面临着一些挑战,例如训练数据存在的偏差以及对可能用于创建“危险对象”的模型缺乏保护措施。因此,OpenAI谨慎地将Point-E描述为一个起点,并希望激励文本到3D合成领域进一步发展。按照AI作画发展的速度,我们或许很快就会看到下一轮技术爆发。

UUID: a1e8cb32-7b20-411a-97fa-5f2efcfefcf3

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2022年/学术头条_2022-12-21_三次元的文本到图像AI成了:单GPU不到一分钟出货,OpenAI出品.txt

是否为广告: 否

处理费用: 0.0082 元