首个3D点云+GAN新方法,让机器人“眼神”更犀利!

作者: 吴婷婷

来源: 学术头条

发布日期: 2021-01-26

德克萨斯大学阿灵顿分校的研究团队提出了一种名为PCGAN的新方法,该方法结合3D点云和生成对抗网络(GAN),旨在提升机器人的视觉灵敏度和环境辨别能力。通过生成高质量的3D彩色点云,PCGAN能够为机器人提供更逼真的训练图像,从而在室内导航和环境交互任务中表现更出色。该研究不仅展示了生成对抗网络在机器人技术中的应用潜力,还指出了未来研究的方向,如提高图像逼真度和减少计算成本。

随着AI、机器人技术的不断发展,人们的生活得到了“AI机器人们”的各种帮助:大到太空机器人辅助宇航任务,小到家用扫地机器人解放我们的双手,可以说,机器人在人类生活中充当的角色越来越多样。但你知道吗?目前用于室内任务、尤其是需要与环境进行频繁交互的机器人,其视觉灵敏度仍需进一步提高——许多机器人在面对相似物体时,并不能辨别出其中的细微区别。

近日,来自德克萨斯大学阿灵顿分校(University of Texas at Arlington,UTA)的一个研究团队,提出了一种名为PCGAN的方法。

相关研究论文以“A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds”为题,发表在预印本网站arXiv上。

研究人员表示,这是第一个以无监督方式生成3D点云(3D point cloud)的条件生成对抗网络(GAN),该网络能够产生具有多分辨率和精细细节的3D彩色点云,以生成利于辨别的物体图像,这将极有利于机器人视觉灵敏度的提升。想象一下,家里的扫地机器人是如何工作的?

一般来说,这类需要与环境交互的机器人首先需要在已构建的环境中完成导航任务,这就要求机器人必须能够感知环境情况并实时做出决策,决定当前如何与其周围环境进行交互。而要想让机器人具有这种自我决策能力,科学家们则需要使用机器学习和深度学习等方法来训练Ta们:通过将收集到的大量图像数据集用作训练数据,来训练机器人应对各种不同物体或环境时应该做出的正确反应。

但很明显,这种手动捕获方法效率太低,无法满足需要大量数据的训练要求。于是,此次的研究小组转向使用一种被称为生成对抗网络的深度学习方式来创造足够逼真的图像,用来训练机器人以提高其辨别环境的能力。作为生成模型的一种,GAN的主要结构包括两个神经网络:生成器(Generator)和判别器(Discriminator)。生成器不断生成假图像,判别器则判断这些图像的真假。

两个神经网络就这样相互竞争,最终形成非常强的制造样本的能力。一旦经过培训,这样的网络将能够创建无数可能的室内或室外环境,其中放置着多种多样的桌椅或车辆等物体。这些物件之间的差别将变得很微小,但对于人和机器人来说,其图像仍带有可识别的尺寸和特征。整个研究小组由UTA的计算机科学与工程学系助理教授William Beksi和他的六名博士学生组成。

参与这项研究的博士生Mohammad Samiul Arshad表示:“手动设计这些对象将耗费大量资源和人力,而如果进行适当的培训,生成网络就可以在几秒钟之内完成同样的任务。”此次研究中的图像数据则通过3D点云呈现,这是一种透过3D扫描器所取得的物体图像形式,它以点的形式记录对象,每一个点包含有三维座标,强度信息(可以反映目标物体的材质、粗糙度、入射角方向等信息),还可能含有色彩信息(RGB)。

对此,Beksi解释道:“我们可以将它们移动到新位置,甚至使用不同的灯光、颜色和纹理,将它们渲染为可在数据集中使用的训练图像。这种方法可能会提供无限的数据来训练机器人。”在实验中,研究人员以ShapeNetCore作为数据集,ShapeNetCore是各种对象类的CAD模型的集合。

他们选择了椅子、桌子、沙发、飞机和摩托车图像进行实验,以满足物体形状的多样性;并将每个类别的数量确定为5个,以减少训练时间。此外,还消除了所有没有材料和颜色信息的CAD模型。他解释说:“我们的模型首先学习低分辨率对象的基本结构,然后逐步建立高级细节。例如对象的各个部分及其颜色之间的关系——椅子/桌子的腿是相同的颜色而座椅/车顶的颜色则截然不同。

我们建立层次结构以进行完整的合成场景生成,这对于机器人技术将非常有用。”他们为每个类别生成了5,000个随机样本,并使用多种不同的方法进行了评估。他们使用该领域的各种常用指标评估了点云的几何形状和颜色。结果表明,PCGAN能够为不同种类的对象类别合成高质量的点云。

尽管PCGAN的确优于一些传统的样本训练方法,但正如Beksi所说:“此次研究只是朝最终目标迈出的一小步,我们的最终目标是生成足够逼真的室内全景图,以提高机器人的感知能力。”此外,Beksi还正在研究另一个问题——Sim2real。Sim2real着眼于如何通过捕捉场景的物理特性(摩擦,碰撞,重力)以及使用射线或光子追踪来量化细微差异,并使仿真图像更加逼真。

他说:“如果是由于增加分辨率而包含更多的点和细节,那么代价就是计算成本的增加。”除计算需求外,Beksi还需要大量存储来进行研究。研究团队每秒产生数百兆的数据,每个点云大约有100万个点,因此,这些训练数据集非常庞大,需要大量的存储空间。接下来,Beksi团队希望将软件部署在机器人上,并查看它与模拟真实的领域之间还存在何种差距。

当然,尽管要拥有真正强大的、可以长时间自主运行的机器人还有很长一段路要走,但研究人员的工作必将有益于多个领域,比如医疗保健、制造业和农业等。

UUID: 418ecd7f-8f81-429c-873c-0ab6030c13de

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-01-26_AI太傻分不清东西?首个3D点云+GAN新方法,让机器人“眼神”更犀利!.txt

是否为广告: 否

处理费用: 0.0051 元