微软最新发布:从专家到通⽤AI代理,⼀⽂读懂「多模态基础模型」

作者: Hazel Yan

来源: arXiv

发布日期: 2023-09-27 17:05:30

微软研究团队发布了一份多模态基础模型分类和演化的综述,展示了视觉和视觉语言能力,并探讨了多模态基础模型从专业化到通用视觉助手转变的方法。相关研究论文已发布在预印本网站arXiv上,涵盖了从视觉理解到视觉生成的多种模型,以及开发通用统一视觉系统的挑战和未来方向。

视觉是⼈类和其他⽣物感知世界的主要渠道之⼀。⼈⼯智能(AI)的⼀个核⼼愿景是开发 AI 代理,模仿感知、⽣成视觉信号,与视觉世界进⾏互动。近⽇,微软研究团队发布了⼀份多模态基础模型分类和演化的综述,展示了视觉和视觉语⾔能⼒。该研究还重点探讨了多模态基础模型从专业化到通⽤视觉助⼿转变的⽅法。

相关研究论⽂以“Multimodal Foundation Models: From Specialists to General-Purpose Assistants”为题,已发布在预印本⽹站 arXiv 上。从视觉理解到视觉⽣成,随着⼴泛数据训练模型(如 BERT、GPT 家族、CLIP 和 DALL-E)的出现,AI 领域经历了⼀次范式转变。

这些模型能够适应各种不同的下游任务,因此被称为基础模型。这⼀模型的兴起主要集中在⾃然语⾔处理领域,从 BERT 到 ChatGPT 等都是明显的例证。

根据多模态基础模型的功能和通⽤,先前的研究将其分为视觉理解模型、视觉⽣成模型、通⽤界⾯模型。基于此,该研究将多模态基础模型分为两类:特定⽬的的预训练视觉模型(Specific-Purpose Pre-trained Vision Models)和通⽤型助⼿(General-Purpose Assistants)。

在视觉理解模型章节中,该研究⾸先讨论了监督学习和 CLIP,随后转向仅图像的⾃监督学习,其中包括对⽐学习、⾮对⽐学习以及掩膜图像建模。接着,研究⼜探讨了增强多模态融合、区域级和像素级图像理解的预训练⽅法。另外,研究详细介绍了图像表示的学习⽅法,可以通过在图像中挖掘的监督信号进⾏学习,也可以通过利⽤从⽹络中挖掘的图像⽂本数据集进⾏语⾔监督学习。

在视觉⽣成模型章节中,该研究详细介绍了与调整 T2I 模型以更准确地与⼈类意图保持⼀致相关的⽂献。其中包括增强空间可控性、编辑现有图像以改善对⻬、更有效地遵循⽂本提示,以及为新的视觉概念个性化 T2I 模型。基于以往研究,研究⼈员设想了未来的 T2I 模型将拥有⼀个统⼀的对⻬调整阶段,可以将⼀个预训练的 T2I 模型转化为更贴近⼈类意图的模型。

这样的模型能够⽆缝处理⽂本和图像输⼊,⽣成所期望的视觉内容,⼈类⽆需再为不同的对⻬挑战定制多个模型。

开发通⽤统⼀的视觉系统,值得注意的是,计算机视觉任务的差异导致构建统⼀的视觉模型⾯临巨⼤挑战。不同的视觉任务涉及各种不同类型的输⼊,包括图像、视频以及视觉与语⾔等多模态输⼊。不同任务还需要不同的粒度,如图像级别、区域级别和像素级别的任务。这导致视觉系统的输出具有不同的格式,包括空间信息和语义信息。

此外,数据⽅⾯也存在挑战,因为不同类型的标签注释成本差异巨⼤,⽽且收集图像数据通常⽐⽂本数据更昂贵,因此视觉数据的规模通常较⼩。

⽬前,计算机视觉领域对于开发通⽤统⼀的视觉系统,特别是⽤于视觉理解任务,越来越感兴趣,但⼀些开放性问题亟待解决。计算机视觉在应⽤⽅⾯⾯临⼀些挑战。由于视觉数据的异质性,⽬前⽤于训练模型的数据⼏乎⽆法涵盖物理世界的全部情况。⽽且,⽬前扩展视觉模型的正确路径尚不明晰。

另外,由于视觉和语⾔之间固有的差异,⽬前仍然不清楚应该进⼀步扩展视觉模型并集成语⾔模型,还是中等规模的视觉模型和⼤型语⾔模型(LLMs)的组合已⾜以解决⼤多数的问题。

除此之外,该综述全⾯研究了⼤型多模态模型,包括它们的背景、重要性以及最新发展。研究重点关注了图像到⽂本⽣成模型的基础知识和各种案例研究中的代表性模型实例。同时,探讨了 OpenAI 多模态 GPT-4 以及领域内的研究差距。此外,研究还触及了多模态模型领域的⾼级主题。最后,通过评估距离实现多模态 GPT-4 的进展总结了该领域的现状。

值得⼀提的是,⽬前开源社区已经开发了各种模型和原型,⽤于不同的新功能。例如,LLaVA/Mini-GPT4 为构建多模态聊天机器⼈铺平了道路,其中⼀些示例可以复制 GPT-4 技术报告中的结果。从启⽤新功能的⻆度来看,开源社区似乎已经接近了 OpenAI 多模态 GPT-4,通过探索朝着构建通⽤多模态助⼿迈出了初步的探索。

然⽽,就扩展给定的功能⽽⾔,仍然存在明显的巨⼤差距,例如研究在 LLaVA 中观察到的视觉推理能⼒。模型需要理解多个⾼分辨率图像和图像中所示的⻓序列⽂本,并以领域知识进⾏回应,这需要更多的计算资源和更强⼤的语⾔模型。

另外,研究还回顾了有关将不同的多模态专家与 LLMs 相结合以解决复杂多模态理解问题的⽂献,其中涵盖建模范式的演变,多模态代理的概述以及如何构建多模态代理的详细内容。以多模态代理 MM-REACT 为例,介绍了它的能⼒和如何扩展到整合最新的 LLMs 和其他⼯具中。最后,研究还讨论了如何改进或评估多模态代理以及多模态代理的多样化应⽤。

研究在构建基于 LLMs 的⾼级多模态系统⽅⾯涵盖了两个⽅向:训练多模态模型的⽅法仅利⽤ LLMs 来⽣成基于多模态输⼊的⽂本,以及多模态代理利⽤ LLMs 的⾼级规划能⼒来分配各种多模态⼯具。两种⽅法各有利弊,但研究设想了⼀种中间领域,可以融合这两种范例的优势,并提出以下问题:既然已经有了像 LLaVA 这样的开源 LLMs,那么我们是否可以⽤ LLaVA 替代 LLMs 作为⼯具分配器?

如果可以,需要哪些功能才能启⽤⼀个⼯具?以及指导调整可以解决哪些问题?

构建通⽤ AI 代理,尽管像 Flamingo 和多模态 GPT-4 等现有视觉助⼿已经⾮常强⼤,但与构建通⽤多模态 AI 代理的宏伟愿景相⽐,它们仍处于初步形态。为此,论⽂重点介绍了朝着这个⽬标迈进的若⼲研究趋势。通⽤代理与多模态⼀体化。

这与构建⼀个像⼈类⼀样通过多个渠道(如语⾔、视觉、语⾳和⾏为)与世界互动的单⼀通⽤代理的宏伟⽬标是⼀致的。从这个⻆度来看,多模态基础模型的概念变得有些模糊。相反,它作为代理的关键组成部分,⽤于感知和综合视觉信号。

与⼈类意图保持⼀致。AI 对⻬研究侧重于引导 AI 系统朝向⼈类预期⽬标、价值观或伦理准则发展。尽管语⾔在表达⼈类意图⽅⾯表现出其普遍性,但并不总是最佳选择。

构建包含多模态⼈机交互界⾯的基础模型是解锁新使⽤场景的关键步骤,其中⼈类意图最好以视觉⽅式表示。例如,场景内元素的空间排列,以及视觉艺术作品的艺术⻛格和视觉吸引⼒。另外,根据以往研究框架,该研究预⻅了多模态基础模型在 AI 代理系统中的作⽤。其中包括计划、记忆和⼯具使⽤。

计划:为了在现实世界情境中完成复杂任务,代理应该能够将⼤型任务分解为较⼩、可管理的⼦⽬标,从⽽实现对复杂任务的⾼效处理。

在理想情况下,AI 代理应该具备⾃我改进的能⼒,进⾏对以前⾏动的⾃我评估和反思,使其能够从错误中学习,并改进其⽅法以进⾏后续尝试,最终实现更好的结果。记忆:对于短期记忆,采⽤上下⽂学习(或提示)作为模型的短期记忆,以便学习。交织的多模态提示可以使新情景更清晰地表达⼈类意图。对于⻓期记忆,它为代理提供了在⻓时间会话中召回外部知识的能⼒,可以通过从多模态向量空间快速检索来实现。

在建模⽅⾯,基础模型需要学习新的技能,以有效地利⽤这两种类型的记忆。

⼯具使⽤:代理学会利⽤外部 API 获取基础模型权重中缺失的知识。在⼏种情境下,需要新的能⼒来处理视觉模态。例如,基于输⼊的视觉信号和指令,模型决定并计划是否需要某些外部 API 来完成⽬标,例如执⾏检测/分割/OCR/⽣成专家的代码执⾏。多模态基础模型领域正在以快速的速度发展,新的⽅向和⽅法经常涌现。

由于每⽇不断更新的研究创新,该论⽂还有许多未讨论的研究主题。但是,总体⽽⾔,该论⽂提供了⼀份全⾯⽽及时的综合调查,涵盖了现代多模态基础模型的各个⽅⾯,为读者提供深⼊了解多模态基础模型开发领域的视⻆。

作者在⽂中表示:“我们对多模态基础模型的未来充满信⼼,这不仅因为我们确信,通过追随 LLMs 的道路,可以在不久的将来实现个别领域中可预⻅的研究创新和思想,还因为将计算机视觉与更⼴泛的 AI 社区联系起来,构建通⽤ AI 代理将显著提升⼈类的⽇常⽣活⽔平。”

更多细节详⻅原论⽂:https://arxiv.org/abs/2309.10020

UUID: 09e418ee-0b86-4fc9-ab9e-b36b3c2c464b

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-09-27_微软最新发布:从专家到通用AI代理,一文读懂「多模态基础模型」.txt

是否为广告: 否

处理费用: 0.0094 元