AI技术在文本到3D模型生成的速度上提升了600倍,代码已开源。最近,文本生成图像的AI技术已经引起了广泛关注,不论是DALL-E 2、DeepAI还是Stable Diffusion,许多人都在利用AI算法进行艺术创作。技术的不断进化推动了文本生成生态的蓬勃发展,甚至催生了独角兽创业公司Stability AI。
技术发展的脚步并没有停滞,OpenAI开源的3D模型生成器Point-E引发了AI圈的新一轮热潮。刚在GitHub上发布一天,就获得了800多个star。根据与开源内容一并发布的论文介绍,Point-E可以在单块Nvidia V100 GPU上在一到两分钟内生成3D模型,相比之下,现有系统(如谷歌的DreamFusion)通常需要数小时和多块GPU。
Point-E不输出传统意义上的3D图像,而是生成点云,即空间中代表3D形状的离散数据点集。Point-E中的E是“效率”的缩写,表示其比以前的3D对象生成方法更快。不过,从计算的角度来看,点云更容易合成,但它们无法捕获对象的细粒度形状或纹理,这是目前Point-E的一个关键限制。为了解决这一问题,OpenAI团队训练了一个额外的人工智能系统来将Point-E的点云转换为网格。
Point-E主要由两个模型组成:文本到图像模型和图像到3D模型。文本到图像模型类似于OpenAI自家的DALL-E 2和Stable Diffusion等生成模型系统,在标记图像上进行训练以理解单词和视觉概念之间的关联。在图像生成之后,图像到3D模型被输入一组与3D对象配对的图像,训练出在两者之间有效转换的能力。
当给出一个文本提示时,例如“一个可3D打印的轮子,一个直径为3英寸、厚度为半英寸的轮子”,AI会生成符合描述的内容。
OpenAI研究人员表示,经过数百万3D对象和相关元数据的数据集上训练后,Point-E拥有了生成匹配文本提示的彩色点云的能力。尽管在图像到3D转换过程中有时无法理解文本叙述的内容,导致生成的形状与文本提示不匹配,但根据OpenAI团队的说法,它仍然比以前的最先进技术快几个数量级。
Point-E的点云可用于制作真实世界的对象,例如通过3D打印制作。再加上额外的网格转换模型,系统在完善后可以用于游戏和动画开发工作流程。虽然当前所有目光都集中在2D艺术生成器上,但模型合成AI可能是下一个重大行业颠覆者。现代电影、视频游戏、VR和AR的CGI效果、空间探索中的测绘任务、古迹遗址保护项目以及Meta等科技公司的元宇宙愿景都需要高性能的3D建模能力。
不过,制作3D模型通常需要一段时间,从几小时到几天不等。如果有一天解决了这一问题,像Point-E这样的AI可以改变很多,并让OpenAI获得可观的利润。潜在的问题是可能会产生知识产权纠纷。3D模型有很大的市场,包括CGStudio和CreativeMarket在内的几个在线市场允许艺术家销售他们创建的内容。
如果Point-E流行起来并投放到市场,模型艺术家们可能会抗议,并拿出现代生成式AI严重依赖其自身训练数据的证据。与DALL-E 2一样,Point-E不承认也没有引用任何可能影响其发展的艺术家的作品。
OpenAI没有明确地说明这一问题,Point-E论文及相应GitHub项目中也都没有提到版权问题。最后,OpenAI研究人员预计Point-E还面临着一些挑战,例如训练数据存在的偏差以及对可能用于创建“危险对象”的模型缺乏保护措施。因此,OpenAI谨慎地将Point-E描述为一个起点,并希望激励文本到3D合成领域进一步发展。按照AI作画发展的速度,我们或许很快就会看到下一轮技术爆发。