北大团队提出BoT:让Llama3-8B超越Llama3-70B

作者: 库珀

来源: 学术头条

发布日期: 2024-06-08 08:24:34

本文报道了多个研究团队在大型语言模型和人工智能领域的最新研究成果,包括北大的BoT、Mamba-2、苹果的Kaleido Diffusion、Audio Mamba、Block transformer、谷歌的ILM、Cohere的SRPO、斯坦福的DITTO、MMLU-Pro和复旦的AgentGym。这些研究展示了在提高模型性能、效率和鲁棒性方面的创新方法。

来自北京大学的研究团队及其合作者提出了Buffer of Thoughts(BoT),这是一种新颖、通用的思维增强推理方法,可以提高大型语言模型(LLM)的准确性、效率和鲁棒性。具体来说,他们提出了meta-buffer,用于存储从各种任务的问题解决过程中提炼出的一系列信息丰富的思维模板。然后,针对每个问题,他们检索相关的思维模板,并进行高效的推理。

为了保证可扩展性和稳定性,他们进一步提出了buffer-manager来动态更新meta-buffer,从而在解决更多任务时提高meta-buffer的容量。他们在10个具有挑战性的推理密集型任务上进行了广泛的实验,与之前的SOTA方法相比,取得了显著的性能提升。进一步的分析表明,BoT具备卓越的泛化能力和模型鲁棒性,而所需的成本平均仅为多重查询提示方法的12%。

值得注意的是,Llama3-8B+BoT有可能超越Llama3-70B模型。

Mamba-2:速度提高2-8倍,与Transformers媲美。来自普林斯顿大学、卡内基梅隆大学的研究团队发现,这些模型系列实际上关系密切,并为SSM和注意力变体之间的理论联系建立了一个新的框架,通过对一类研究得很透彻的结构化半可分矩阵进行各种分解来建立联系。

他们基于state space duality(SSD)框架设计出了Mamba-2,其核心层是对Mamba选择性SSM的改进,速度提高了2-8倍,同时在语言建模方面仍可与Transformers相媲美。

苹果团队推出文生图新方法Kaleido Diffusion。来自苹果、维吉尼亚理工大学的研究团队提出了Kaleido,这是一种新颖的方法,它通过整合自回归潜在先验来增强样本的多样性。

Kaleido整合了一个自回归语言模型,该模型可对原始标题进行编码并生成潜变量,作为抽象的中介表征,用于指导和促进图像生成过程。他们探索了各种离散的潜在表示法,包括文字描述、检测边界框和视觉token等。这些表征丰富了扩散模型的输入条件,使输出结果更加多样化。实验结果表明,Kaleido有效地扩大了从给定文本描述生成的图像样本的多样性,同时保持了较高的图像质量。

此外,他们还证明了Kaleido紧跟生成的潜在变量所提供的指导,从而证明了其有效控制和指导图像生成过程的能力。

Audio Mamba:用于音频表征学习的双向状态空间模型。来自韩国科学技术院的研究团队探讨了在音频分类任务中是否有必要依赖自注意力的问题。他们提出了首个不依赖自注意力、纯粹基于SSM的音频分类模型Audio Mamba(AuM)。他们在各种音频数据集(包括六个不同的基准)上对AuM进行了评估,结果表明它与成熟的AST模型相比,性能相当甚至更好。

Block transformer:通过全局到局部语言建模,实现快速推理。来自韩国科学技术院、LG AI Research和Google DeepMind的研究团队提出了Block transformer,该架构对自回归Transformer采用分层全局到局部建模,从而缓解自注意力的推理瓶颈。由于摆脱了全局注意力瓶颈,上层可以充分利用计算硬件,最大限度地提高推理吞吐量。

通过利用全局和局部模块,与具有同等复杂度的普通Transformer相比,Block Transformer架构的推理吞吐量提高了10-20倍。他们的工作提出了通过全局到局部建模的新颖应用来优化语言模型推理。

谷歌团队推出项目语言模型ILM,用于对话式推荐。来自谷歌的研究团队提出了由一个项目编码器和一个冻结LLM组成项目语言模型(Item-Language Model,ILM),项目编码器用于生成文本对齐的项目表征,从而编码用户交互信号;冻结LLM则能利用保留的预训练知识理解这些项目表征。大量实验证明了语言对齐和用户交互知识在项目编码器中的重要性。

Cohere提出自改进鲁棒偏好优化SRPO。

来自Cohere的研究团队提出了自改进实用的、数学上有原则性的离线鲁棒偏好优化框架——SRPO,对任务的变化具有完全的鲁棒性。SRPO的主要思想是从人类偏好中学习的问题视为一个自我改进的过程,在数学上可以用最小-最大目标来表示,该目标旨在以对抗的方式联合优化自我改进策略和生成策略。这个优化问题的解决方案与训练任务无关,因此对训练任务的变化具有鲁棒性。

然后,他们展示了这一目标可以用非对抗性离线损失的形式重新表达,它可以使标准的监督优化技术进行大规模优化,而无需奖励模型和在线推理。

斯坦福团队提出DITTO:将语言模型与演示反馈对齐。来自斯坦福大学的研究团队提出了Demonstration ITerated Task Optimization(DITTO),可直接将语言模型输出与用户的演示行为对齐。

DITTO利用在线模仿学习的理念,通过将用户的演示作为优先于LLM及其中间检查点输出的数据,以低成本生成在线比较数据。他们评估了DITTO在新闻文章、电子邮件和博客文章等领域学习细粒度风格和任务一致性的能力。此外,他们还进行了一项用户研究,向参与者征集了一系列演示。在他们的基准测试和用户研究中,他们发现DITTO的获胜率平均比少量提示、监督微调和其他自我游戏方法高出19%。

MMLU-Pro:更鲁棒、更具挑战性的多任务语言理解基准测试。来自滑铁卢大学、多伦多大学和卡内基梅隆大学提出了一个增强型数据集——MMLU-Pro,旨在通过整合更具挑战性、以推理为重点的问题,并将选择集从四个选项扩展到十个选项,从而扩展主要由知识驱动的MMLU基准。此外,MMLU-Pro还剔除了MMLU中琐碎和嘈杂的问题。

实验结果表明,与MMLU相比,MMLU-Pro不仅提高了挑战性,使准确率大幅下降了16%至33%,而且在不同提示下表现出更高的稳定性。

复旦团队推出AgentGym:让智能体在多样化环境中进化。来自复旦大学的研究团队确定了三种关键因素:1)用于agent探索和学习的多样化环境;2)使agent具备基本能力和先验知识的轨迹集;3)有效且可扩展的进化方法。

他们提出的AgentGym是一个新的框架,具有各种环境和任务,可用于广泛、实时、单一格式和并发的agent探索。AgentGym还包括一个包含扩展指令、基准套件和跨环境高质量轨迹的数据库。接下来,他们提出了用于研究agent自我进化的潜力,超越了之前跨任务和跨环境的数据。实验结果表明,进化后的agent可以取得与SOTA模型相当的结果。

UUID: 52bd223d-3ef6-40a2-a2fa-07dc83b6449f

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-06-08_北大团队提出BoT:让Llama3-8B超越Llama3-70B|大模型周报.txt

是否为广告: 否

处理费用: 0.0088 元