100篇必读论文|大模型月报(2024.02)

作者: 佩奇

来源: 学术头条

发布日期: 2024-03-11 08:38:03

本文介绍了2024年2月份收录的一些热门大模型研究论文,涵盖了文生图、文生视频、文生音频、文生代码、文生3D、智能体、对齐、安全治理、大模型/AI4Science和其他等多个领域。文章详细介绍了各个领域的研究进展和创新技术,如ImgAny的多模态生成模型、MobileDiffusion的高效文生图扩散模型、Sora的文生视频AI模型、ChatMusician的音乐生成模型、RoboCodeX的机器人行为合成框架、3D生成技术的最新进展、Formal-LLM的智能体计划生成框架、DeepMind的LLMs对齐研究、新型越狱攻击方式、SciAgent的科学推理工具增强模型、ToMBench的心智理论基准测试等。这些研究为大模型的发展提供了新的思路和方法,推动了人工智能技术的进步。

大家好,这是我们的新专栏——大模型月报(100篇必读论文)的第一篇文章,内容主要为当前大模型领域热门研究方向(如文生图、文生视频、文生音乐等)的热门论文。我们希望,这一专栏能够为大家提供较为全面的大模型最新研究进展。当然,「大模型月报」目前还无法涵盖所有热门论文以及研究方向,望请见谅。欢迎大家多提建议,也欢迎大家在评论区补充~想要第一时间获取每日最新大模型热门论文?

扫描下方二维码,或添加微信Tobethenum1,加入大模型论文分享群,务必备注“大模型日报”。ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~以下,为2024年2月份,我们收录的一些热门大模型研究论文。文章篇幅较长,共计4万字,建议收藏~

第1章 文生图

【Image Anything:像人类一样想象画面】人类感知和理解力的多面性表明,当我们思考时,我们的身体可以自然地结合多种感官在大脑中形成一幅美丽的图画。例如,当我们看到一个猫窝,听到猫咪的叫声,大脑中就构建出猫在猫窝里的画面。生成式人工智能模型应具备人类的这一特点,能够高效、协作地从任何模态组合中生成图像。

来自香港科技大学的研究团队提出了一种端到端多模态生成模型——ImgAny,它可以模仿人类推理并生成高质量的图像。ImgAny首次尝试高效灵活地获取从语言、音频到视觉等七种模式的任意组合,包括图像、点云、热、深度和事件数据。该项研究受到人类认知过程的启发,无需对不同模态进行特定调整即可在实体和属性层面整合和协调多个输入模态。

该方法带来了两个新的免训练技术分支,实体融合分支确保输入和输出之间的一致性,它从专门构建的实体知识图谱中提取实体特征;属性融合分支善于保留和处理属性,它通过我们提出的属性知识图谱高效地融合来自不同输入模态的独立属性。最后,实体和属性特征被自适应地融合为预先训练好的 Stable Diffusion 模型的条件输入以生成图像。在不同模态组合下进行的实验证明了ImgAny在视觉内容创建方面的卓越能力。

【谷歌新研究:移动设备上的亚秒级文生图模型】由于大规模文生图扩散模型庞大的模型体积和缓慢的推理速度,在移动设备上部署大模型受到限制。为此,来自谷歌公司的研究团队提出了一个在架构和采样技术上进行广泛优化的高效文生图扩散模型——MobileDiffusion。研究团队通过对模型架构设计进行全面审查达到了减少冗余、提高计算效率的效果,并能够在最小化模型的参数数量的同时保持图像生成质量。

MobileDiffusion应用了蒸馏(distillation)和 Diffusion-GAN 微调技术,分别实现了8步和1步推理。实验证明了MobileDiffusion的有效性。在移动设备上生成512×512图像时,MobileDiffusion实现了惊人的亚秒级推理速度,建立了新的技术水平。

第2章 文生视频

【Sora综述:大型视觉模型的背景、技术、局限和机遇】Sora是OpenAI于2024年2月发布的文生视频人工智能(AI)模型。经过训练,Sora能根据文字说明生成逼真或富有想象力的场景视频,并显示出了模拟物理世界的潜力。在这篇论文中,来自理海大学和微软研究院的研究团队以公开技术报告和逆向工程为基础,全面回顾了Sora的背景、相关技术、应用、尚存挑战以及文生视频AI模型的未来发展方向。

第3章 文生音频【ChatMusician:使用大模型理解和生成音乐】来自Multimodal Art Projection Research Community、Skywork和香港科技大学的研究团队提出了一个集成了内在音乐能力的开源大型语言模型(LLMs)——ChatMusician。它基于与文本兼容的音乐表示法(ABC记谱法)对LLaMA2进行持续的预训练和微调,并将音乐视为第二语言。

ChatMusician可通过纯文本tokenizer理解和生成音乐,无需任何外部多模态神经网络或tokenizer。赋予音乐能力并不会损害语言能力,甚至在MMLU评分上略有提高。ChatMusician能够以文本、和弦、旋律、主题、音乐形式等为条件,创作出结构良好的完整音乐,超过了GPT-4基线。

第4章 文生代码

【RoboCodeX:机器人行为合成的多模态代码生成】机器人行为合成,即理解多模态输入并为机器人生成精确物理控制,是具身人工智能(Embodied AI)的重要组成部分。尽管在应用多模态大型语言模型进行高级理解方面取得了成功,但要将这些概念理解转化为详细的机器人动作并在各种场景中实现泛化仍具挑战性。

来自香港大学和上海人工智能实验室的研究团队及其合作者提出了一个用于泛化的机器人行为合成的树状结构多模态代码生成框架——RoboCodeX。它将高级人类指令分解为多个以对象为中心的操作单元,包括如负担能力(affordance)和安全约束等物理偏好,并应用代码生成技术在各种机器人平台上实现泛化能力。

第5章 文生3D

【综述:3D生成技术的最新进展】生成3D模型是计算机图形学的核心,也是数十年来研究的重点。随着高级神经表征和生成模型的出现,3D内容生成领域正在迅速发展,创建越来越高质量和多样化的3D模型成为可能。来自腾讯人工智能实验室、腾讯ARC实验室、香港城市大学和华南理工大学的研究团队提出了一份综述,介绍了3D生成的基本方法,建立了一个包括3D表征、生成方法、数据集以及相应的应用的结构化路线图。

第6章 智能体(Agent)【Formal-LLM:让智能体生成有效计划】大型语言模型(LLMs)的最新进展使人工智能智能体能够自动生成并执行多步骤计划来解决复杂任务。由于LLMs的内容生成过程几乎不可控,目前的LLMs智能体经常生成无效或不可执行的计划,这不仅降低了所生成计划的性能,也破坏了用户对LLMs智能体的信任。

为此,来自罗格斯大学的研究团队通过整合自然语言的表达能力和形式语言的精确性,为LLMs智能体提出了一个“Formal-LLM”框架。该框架允许人类用户以自动机(automaton)的形式表达他们对规划过程的要求或约束。在自动机的监督下进行基于堆栈的LLMs计划生成过程确保生成的计划满足约束条件,从而使计划过程可控。

第7章 对齐(Alignment)

【DeepMind新研究:让大模型更快地从人类反馈中学习】大型语言模型(LLMs)可以根据语言命令编写机器人代码,这让不是专家的人也能够指导机器人行为、根据反馈修改机器人行为,或将机器人行为组合起来执行新任务。然而,这些能力(由上下文学习驱动)仅限于短期交互,用户的反馈只在符合LLMs的上下文大小范围内保持相关性,在较长时间的交互中可能会被遗忘。

Google DeepMind提出了对机器人代码编写LLMs进行微调来记住它们在上下文中的交互,并提高它们的可教性——它们适应人类输入的效率(以用户认为任务成功之前的平均修正次数来衡量)。

第8章 安全治理【针对大模型的新型越狱攻击方式】尽管人们在对齐大型语言模型(LLMs)方面付出了巨大努力,但红队报告表明,这些经过精心对齐的LLMs仍有可能通过对抗性提示、调整或解码而被越狱。

在研究已对齐LLMs的越狱漏洞时,来自加州大学圣巴巴拉分校、新加坡Sea AI Lab和卡内基梅隆大学的研究团队发现越狱模型和对齐模型的解码分布仅在初始生成时有所不同,即对手可以利用较小的不安全/已对齐LLM(如7B)来引导对较大的已对齐LLM(如70B)进行越狱。

第9章 大模型/AI4Science

【SciAgent:用于科学推理的工具增强语言模型】即使对于最先进的大型语言模型(LLMs),科学推理也是一项巨大的挑战。来自南洋理工大学、清华大学、微软公司、加州大学和新加坡管理大学的研究团队提出了一种新的任务设置——工具增强的科学推理。它利用可扩展的工具集对LLMs进行补充,将重点转向精通工具的用户。

第10章 其他

【ToMBench:清华团队领衔提出大模型心智理论基准测试】Theory of Mind(ToM)是一种能够感知并将心理状态归因于自己和他人的认知能力。最近的研究引发了一场关于大型语言模型(LLMs)是否表现出一种ToM形式的争论。然而,现有的ToM评估受到范围限制、主观判断和意外污染等挑战的阻碍,导致评估不充分。

为此,来自清华大学的研究团队及其合作者推出了ToMBench,它具有三个关键特征:一个涵盖社会认知领域8项任务和31种能力的系统性评估框架;一种支持自动和无偏见评估的多选题格式;以及一个严格避免数据泄露的自建双语清单。

UUID: c0e2d3ae-6afe-46a2-a7c7-d43d9c71aa18

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-03-11_建议收藏!100篇必读论文|大模型月报(202402).txt

是否为广告: 否

处理费用: 0.0338 元