AI日报|DragGAN源代码发布;多模态大型语言模型综述

来源: 学术头条

发布日期: 2023-06-26 12:33:50

今日人工智能领域的重要动态包括多模态大型语言模型(MLLMs)的综述发布、DragGAN源代码的发布、ToolQA数据集的推出、DiversiGATE统一框架的研发以及关于大型视觉语言模型安全风险的研究揭示。这些进展涵盖了从模型训练到应用安全的多方面内容。

今⽇值得关注的⼈⼯智能新动态:多模态⼤型语⾔模型综述为追溯和总结多模态⼤型语⾔模型(MLLMs)的最新进展,中国科学技术⼤学与腾讯联合发布了MLLMs综述⽂章。他们⾸先介绍了MLLMs的表述并描述了其相关概念;然后讨论了多模态指令微调(M-IT)、多模态上下⽂学习(M-ICL)、多模态思维链(M-CoT)等关键技术和应⽤;最后,他们讨论了现有的挑战并指出了有希望的研究⽅向。

具体如下:MLLMs感知能⼒不⾜,这导致获取的视觉信息不完整或不正确。⼀种解决⽅案是引⼊SAM这样的⼤型视觉基础模型,从⽽可以更⾼效地压缩视觉信息。MLLMs的推理链不够强⼤。单模态LLMs的推理能⼒可能不等同于在接收到视觉信息后的LLMs的推理能⼒,需要加⼤对改进多模态推理的研究⼒度。MLLMs的指令遵循能⼒需要升级。在进⾏M-IT,⼀些MLLMs仍然⽆法⽣成预期的答案。

因此,指令微调可能需要涵盖更多任务,从⽽提⾼泛化能⼒。幻觉问题普遍存在,很⼤程度上影响了MLLMs的可靠性。这可能归因于不⾜的对⻬预训练。因此,⼀种可能的解决⽅案是在视觉和⽂本模态之间进⾏更细粒度的对⻬。MLLMs需要进⾏参数⾼效的训练。更⾼效的训练⽅法可能会在计算资源有限的情况下释放出MLLMs更强的能⼒。论⽂链接:https://arxiv.org/abs/2306.13549

DragGAN源代码发布DragGAN是由来⾃⻢克斯·普朗克计算机科学研究所、MIT CSAIL和⾕歌的研究团队提出的⼀种控制GAN的新⽅法,能够让⽤户以交互的⽅式“拖动”图像的任何点精确到达⽬标点,可处理的图像类型包括动物、汽⻋、⼈类、⻛景等,涵盖⼤量物体姿态、形状、表情和布局,并且⽤户的操作⽅法简单通⽤。参考链接:https://github.com/XingangPan/DragGAN

ToolQA:助⼒LLMs提升外部⼯具应⽤能⼒近⽇,为提⾼⼤型语⾔模型(LLMs)使⽤外部⼯具回答问题的能⼒,佐治亚理⼯学院的研究团队推出了⼀个名为ToolQA的新数据集。该数据集涉及⼀个可扩展的⾃动化数据集管理流程,以及13个专⻔与外部知识交互来回答问题的⼯具。研究⼈员在研究该数据集时,最⼤限度地减少了基准数据与LLMs预训练数据之间的重叠,从⽽能够更精确地评估LLMs的⼯具使⽤推理能⼒。

有关该数据集的数据和代码可以在GitHub上免费获取。论⽂链接:https://arxiv.org/abs/2306.13304DiversiGATE:⾰新LLMs验证的统⼀框架微软研究院和ModelFarm整合了多种LLM验证⽅法,联合研发出了统⼀框架DiversiGATE。

该框架包括多样化和聚合两个主要组成部分,从⽽为Self-Consistency、Math Prompter和WebGPT等现有验证⽅法提供了整体视⻆。此外,他们还提出了SelfLearner模型,该模型可以从⾃身的输出中学习并提⾼其准确性。

为了评估SelfLearner的有效性,他们还对合成数据和算术推理基准(如GSM8K)进⾏了测试,结果表明,该⽅法优于传统的LLMs,在GSM8K基准上取得了很好的改进。论⽂链接:https://arxiv.org/abs/2306.13230研究揭示:⼤型视觉语⾔模型存在安全⻛险近期,普林斯顿⼤学⼀项研究揭示,对抗性示例可以绕过安全机制,引发⼤型视觉语⾔模型(VLMs)的有害⾏为。

即使针对特定社会群体的狭窄语料库进⾏优化,这些示例仍能普遍破解安全机制,产⽣有害内容。研究强调了对VLMs的全⾯⻛险评估、强⼤的防御策略和负责任实践的紧迫需求,以确保其安全使⽤。这⼀发现对保护⽤户和社会免受潜在威胁⾄关重要。论⽂链接:https://arxiv.org/abs/2306.13213

UUID: 9af09090-edbe-4272-be0b-d50c33841a36

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-06-26_AI日报|DragGAN源代码发布;多模态大型语言模型综述.txt

是否为广告: 否

处理费用: 0.0049 元