超越GPT-4V，清华团队推出具身智能体开放平台；零样本多身份图像生成；基于自我博弈的大模型对齐

本周值得关注的大模型前沿研究包括：同时预测多个token：更好更快的⼤型语⾔模型，InstantFamily：零样本多身份图像生成，Meta提出“迭代推理偏好优化”SPPO：基于自我博弈的⼤模型对齐方法，字节、南开团队StoryDiffusion：提高图像、视频生成的一致性，使用“单图像对”定制文本到图像模型，Meta新研究：实现语言模型的高效训练，超越GPT-4V，清华团队推出具身智能体开放平台。

1. 同时预测多个token：更好更快的⼤型语⾔模型

⽬前，GPT和Llama等⼤型语⾔模型（LLMs）都是通过下⼀个token预测损失来训练的。在这项工作中，来自Meta FAIR的研究团队认为，训练语⾔模型同时预测多个token，可以提高采样效率。

2. InstantFamily：零样本多身份图像生成

SK Telecom提出了InstantFamily，采用一种新颖的掩码交叉注意力机制和多模态嵌入堆栈来实现零样本多ID图像生成。他们的方法利用预先训练的人脸识别模型中的全局和局部特征与文本条件相结合，从而有效地保留了ID。

3. Meta提出“迭代推理偏好优化”SPPO

来自加州大学洛杉矶分校和卡内基梅隆大学的研究团队，提出了一种基于自我博弈的语言模型对齐方法SPPO，该方法将问题视为一个恒和双人博弈，旨在确定纳什均衡策略。

4. 字节、南开团队StoryDiffusion

来自南开大学和字节跳动的研究团队提出了一种新的自注意力计算方式——一致自注意力（Consistent Self-Attention），它能显著提升生成图像之间的一致性。

5. 使用“单图像对”定制文本到图像模型

来自卡内基梅隆大学和东北大学的研究团队提出了一种新的定制方法——配对定制（Pair Customization），它能从单个图像配对中学习风格差异，然后将获得的风格应用到生成过程中。

6. Meta新研究：实现语言模型的高效训练

来自Meta FAIR的研究团队提出了一种新方法，以模型无关的方式对大型无标签NLP数据集中的文本质量进行数值评估，为文本实例分配“质量分数”。

7. 超越GPT-4V，清华团队推出具身智能体开放平台

来自清华大学、中南大学的研究团队提出了一个开放、可扩展的平台——LEGENT，用于开发使用LLM和LMM的具身智能体。

8. Cohere提出评测新方法：用多个小模型替代大模型

Cohere团队建议使用LLM评测小组（PoLL）来评测模型。通过三种不同的评测设置和六个不同的数据集，他们发现，使用由更多较小模型组成的PoLL比使用单一大型评估器的效果更好。

9. Meta推出AdvPrompter，800倍速生成人类可读对抗性提示

Meta团队提出了一种新方法——使用一种名为AdvPrompter的LLM在数秒内生成人类可读的对抗性提示，比现有的基于优化的方法快800倍。

超越GPT-4V，清华团队推出具身智能体开放平台；零样本多身份图像生成；基于自我博弈的大模型对齐｜大模型周报