大模型前沿论文集锦

苹果推出开放语言模型 OpenELM。大型语言模型（LLMs）的可重复性和透明度，对于推进开放研究、确保结果的可信性、以及对数据和模型偏差以及潜在风险进行调查，至关重要。苹果研究团队推出了一种先进的开放语言模型 OpenELM。OpenELM 使用分层缩放策略，在 transformer 模型的每一层中有效地分配参数，从而提高了准确性。

与之前只提供模型权重、推理代码以及在私有数据集上进行预训练的做法不同，OpenELM 包含了在公共可用数据集上对语言模型进行训练和评估的完整框架。Google DeepMind 新研究：减轻说服型生成式 AI 的危害。最近，生成式人工智能（AI）系统已经显示出更先进的说服能力，并逐渐渗透到可以影响决策的生活领域。然而，由于互惠交换和长时间互动的机会，生成式 AI 呈现了一种新的说服风险。

Google DeepMind 团队及其合作者提出了说服型生成式 AI 的定义，并区分了理性说服型生成式 AI 和操纵型生成式 AI，前者依赖于提供相关事实、合理推理或其他形式的可信证据，后者则依赖于利用认知偏差和启发式方法或歪曲信息。港科大提出 FlashSpeech：高效零样本语音合成。目前，语言模型和扩散模型在大规模零样本语音合成方面取得了显著进展。

然而，这两种方法的生成过程都很慢且计算量很大。来自香港科技大学的研究团队及其合作者，提出了一个大规模的零样本语音合成系统——FlashSpeech，与以前的工作相比，它的推理时间大约减少了 5%。FlashSpeech 的生成过程可以通过一个或两个采样步骤高效地完成，同时保持高音频质量和与零样本语音生成音频提示的高相似性。

多模态语言模型 Pegasus-v1 技术报告。Twelve Labs 团队推出了一种多模态语言模型 Pegasus-1，专门用于通过自然语言理解视频内容和进行交互。Pegasus-1 的设计目的是应对视频数据带来的独特挑战，如解读时空信息，从而提供不同长度的细微视频内容理解。SnapKV：免微调，将 KV 缓存的大小降到最低。

目前，大型语言模型（LLMs）在处理大量上下文方面取得了显著进展，其中键值（KV）缓存在提高其性能方面发挥了重要作用。然而，随着输入长度的增加，KV 缓存的增长给内存和时间效率带来了挑战。为此，来自伊利诺伊大学厄巴纳香槟分校、Cohere 和普林斯顿大学的研究团队，提出了一种创新的免微调方法 SnapKV，有效地将 KV 缓存的大小降到最低，同时在实际应用中产生了相当的性能。

清华团队新研究：通过提示工程在 LLM 中整合化学知识。该论文介绍了一项关于整合提示工程中特定领域知识来提高科学领域大型语言模型（LLM）性能的研究。来自清华大学和牛津大学的研究团队设计了一个基准数据集，包括了小分子错综复杂的物理化学特性，在药理学上的可药性，以及酶和晶体材料的功能属性，强调了其在生物和化学领域的相关性和适用性。

微软、清华团队新研究：多头混合专家 MH-MoE。稀疏混合专家（SMoE）模型可在不显著增加训练和推理成本的情况下扩展模型容量，但存在以下两个问题：专家激活率低，只有一小部分专家被激活用于优化；缺乏对单个 token 中多个语义概念的细粒度分析能力。来自微软、清华大学的研究团队提出了多头混合专家（MH-MoE），它采用多头机制将每个 token 分割成多个子 token。

英伟达提出扩散模型采样新方法 Align Your Steps。扩散模型已成为视觉领域及其他领域先进的生成建模方法。然而，扩散模型的一个缺点是采样速度慢，需要通过大型神经网络进行多次连续的函数评估。为此，来自英伟达、多伦多大学和 Vector 的研究团队提出了一种通用的原则性方法—— Align Your Steps，来优化扩散模型的采样计划，从而获得高质量的输出。

ID-Animator：零样本身份保持人类视频生成器。生成具有指定身份（ID）的高保真人类视频，已引起内容生成领域的极大关注。然而，现有技术很难在训练效率和身份保持（identity preservation）之间取得平衡，要么需要进行繁琐的逐个微调，要么通常会在视频生成过程中遗漏 ID 细节。

来自中国科学技术大学、中国科学院和腾讯的研究团队，提出了一种零样本人类视频生成方法 ID-Animator，它可以在给定单个参考面部图像的情况下，无需进一步训练即可生成个性化视频。