“给男人加一个络腮胡”“移除照片中的路人”“让这个小女孩比个yeah”,就像魔法一样,只需一句话,AI就可以把一张图变成你脑海中的样子。基于AI大模型强大能力的图像编辑新范式,便是我们想要的这种魔法。当前,随着AI大模型相关技术的快速发展与普及应用,无论是个人使用,还是在商业软件中,由文本指令(prompt)引导的图像编辑能力将越来越多地被用于日常生活中。
然而,现有方法要么是基于零样本(zero-shot)学习,要么是在自动合成数据集上训练,其中不仅包含大量的噪声,且仍然需要大量的人工微调,因而很难产生理想的结果。因此,业内迫切需要一个高质量的数据集来促进现实世界的文本指令引导的图像编辑。
为了解决这一问题,来自俄亥俄州立大学、滑铁卢大学的研究团队推出了第一个大规模的、人工标注的、用于指令引导真实图像编辑的数据集——MagicBrush,其涵盖单轮(single-turn)、多轮(multi-turn)、有蒙版(mask-provided)、无蒙版(mask-free)编辑等多种场景。
据介绍,MagicBrush包含超过10000个人工注释组合(源图像、指令和目标图像),支持训练大规模的文本指令引导的图像编辑模型。此外,据论文描述,将InstructPix2Pix(一种端到端的编辑方法)在MagicBrush上进行微调后,其最终效果优于其他基线模型。未来,当人人都有了这种魔法,或许每个人都可以成为“神笔马良”。