大模型周报|微软、清华团队提出“多头混合专家”MH-MoE;超越思维链(CoT),“Chain-of-X”范式调查

作者: 库珀

来源: 学术头条

发布日期: 2024-04-26 15:43:47

本周大模型周报介绍了多个前沿研究成果,包括微软和清华团队提出的多头混合专家(MH-MoE)、Meta 的端到端推理加速解决方案、BattleAgent 的多模态动态模拟系统、OpenAI 的指令层次结构、清华的高效推理综述、Google DeepMind 的高级人工智能助手伦理研究、清华和 Meta 的文生图定制新方法 MultiBooth、微软的 Phi-3 系列模型、上海 AI Lab 的开源多模态大模型 InternVL 1.5、北京智源人工智能研究院和中国电信的 520 亿参数开源多语言大型语言模型 Tele-FLM、苹果的开放语言模型 OpenELM、Google DeepMind 的说服型生成式 AI 研究、清华和牛津大学的化学知识整合研究、MIT CSAIL 的多模态自动可解释性智能体 MAIA 以及麻省理工学院等机构的基于物理学的 PhysDreamer 方法。

本周值得关注的大模型 / AIGC 前沿研究中,Meta 研究团队及其合作者提出了一种端到端的大型语言模型(LLM)推理加速解决方案——LayerSkip。微软、清华大学的研究团队提出了多头混合专家(MH-MoE),它采用多头机制将每个 token 分割成多个子 token。

来自罗格斯大学的研究团队及其合作者提出了 BattleAgent,这是一个结合了大型视觉语言模型(LVLM)和多智能体(agent)系统的仿真系统。OpenAI 研究团队提出了一种指令层次(instruction hierarchy)结构,明确定义了当不同优先级的指令冲突时模型应该如何选择。来自清华大学的研究团队及其合作者全面考察了有关高效 LLM 推理的现有文献。

Google DeepMind、Google Research 的研究团队及其合作者,重点探讨了高级人工智能助理带来的机遇以及伦理和社会风险。来自清华大学和 Meta 的研究团队提出了一种用于从文生图的多概念定制的新型高效技术—— MultiBooth。微软发布了 Phi-3 系列模型,包括 phi-3-mini、phi-3-small 和 phi-3-medium。

来自上海 AI Lab 的研究团队及其合作者,推出了一种开源多模态大型语言模型(MLLM)—— InternVL 1.5。来自北京智源人工智能研究院、中国电信的研究团队及其合作者,提出了一个 520 亿参数的开源多语言大型语言模型 Tele-FLM(又名 FLM-2)。苹果研究团队推出了一种先进的开放语言模型 OpenELM。

Google DeepMind 团队及其合作者提出了说服型生成式 AI 的定义,并区分了理性说服型生成式 AI 和操纵型生成式 AI。来自清华大学和牛津大学的研究团队设计了一个基准数据集,包括了小分子错综复杂的物理化学特性,在药理学上的可药性,以及酶和晶体材料的功能属性。MIT 计算机科学与人工智能实验室团队提出了一个多模态自动可解释性智能体—— MAIA。

来自麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学的研究团队提出了一种基于物理学的方法 PhysDreamer,它利用视频生成模型学习到的物体动力学先验,赋予静态 3D 物体以交互式动态效果。

UUID: 9f7bdd13-ecdf-4ed0-848a-ef6fbdd2ebf1

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-04-26_大模型周报|微软、清华团队提出“多头混合专家”MH-MoE;超越思维链(CoT),“Chain-of-X”范式调查.txt

是否为广告: 否

处理费用: 0.0074 元