一周热门：北京发布“人工智能+”行动计划；智谱AI推出CogVideoX；OpenAI发布SearchGPT

北京发布“人工智能+”行动计划；智谱AI推出CogVideoX；OpenAI发布SearchGPT。学术君学术头条 2024-07-28 08:02:00收录于话题#大模型周报大模型周报将从【技术前瞻】【企业动态】【政策法规】【专家观点】四部分，带你快速跟进大模型行业热门动态。

技术前瞻：

1.OpenAI提出了一种新的偏好建模方法，利用人工智能（AI）反馈，并且只需少量的人类数据。他们基于规则的奖励（RBR），使用一组规则来定义期望或非期望的行为，并结合一个 LLM 评分器。

2.苹果公司推出了一种无需额外训练的视频大语言模型——SlowFast-LaVA（SF-LaVA），其可以在不超出常用 LLM 的 token 预算的情况下，同时捕捉详细的空间语义和长距离的时间上下文。

3.斯坦福大学的研究团队推出了一种用于学习体现感知控制策略的模型架构和训练程序 GET-Zero，该架构无需重新训练即可立即适应新的硬件变化。

4.苹果公司的研究团队提出了一种名为 LazyLLM 的新方法。它可以在预填充和解码阶段选择性地计算对预测下一个 token 很重要的 token 键值。

5.深圳市大数据研究院和香港中文大学的研究团队提出了诊断链（Chain-of-Diagnosis，CoD），从而提高基于大语言模型（LLM）的医疗诊断的可解释性。

6.上海期智研究院、浙江大学和上海交通大学的研究团队提出了由高级推理模块和低级控制策略组成的创新系统—Cross Anything System（CAS），它使机器人能够在复杂的 3D 地形中导航并到达目标位置。

7.微软的研究团队介绍了对 Phi-3 系列语言模型进行安全对齐的方法。他们利用“打破-修复”循环，进行了多轮数据集整理、安全后训练、基准测试、红队测试和漏洞识别。

8.牛津大学的研究团队旨在以无需额外训练的方式生成电影和电视剧的音频描述（AD），他们利用视觉语言模型（VLM）和大语言模型（LLM）为这项任务开发了视觉和文本 prompt 策略。

9.华盛顿大学和 Salesforce 的研究团队及其合作者，推出了迄今为止最广泛、最多样的开源多模态交错数据集——MINT-1T，其包含一万亿个文本 token 和 34 亿张图片。

企业动态：

1.Meta 发布了他们最先进的开源大语言模型——Llama 3.1 系列，包括首个“前沿级”（frontier-level）的开源模型——Llama 3.1 405B。

2.Stability AI 研究团队推出了 Stable Video 4D（SV4D），这是一种用于生成多帧和多视角一致的动态 3D 内容的潜在视频扩散模型。

3.智谱AI 推出 CogVideoX，这是一款人人可用、无需预约、无需排队的 AI 视频大模型。

4.马斯克在社交媒体 X 上宣布，旗下 AI 初创公司 xAI 已开始在位于田纳西州的所谓孟菲斯超级集群（training cluster）上进行训练。

5.法国 AI 初创公司 Mistral AI 发布了全新旗舰开源模型 Mistral Large 2。

6.OpenAI 推出了名为“SearchGPT”的 AI 搜索引擎原型。

7.Cohere 宣布完成 D 轮 5 亿美元融资，估值达到 55 亿美元。

政策法规：

1.美国、英国和欧盟的监管机构签署联合声明，旨在通过公平公开的竞争释放 AI 技术所能提供的机遇，并制定了维护公平竞争和保护消费者的共同原则。

2.上海印发《上海市促进工业服务业赋能产业升级行动方案（2024—2027年）》，其中提出，促进人工智能与制造业深度融合。

3.北京市发布“人工智能+”行动计划：2025 年底前推出百个优秀大模型。

专家观点：

1.来自牛津大学和剑桥大学的研究团队及其合作者，在一篇发表在 Nature 上的论文中称，模型在训练中使用自身生成的内容，会出现不可逆转的缺陷，逐渐忘记真实数据分布，从而导致模型性能下降。

2.来自斯德哥尔摩国际和平研究所的 Vincent Boulanin 以及联合国裁军事务办公室的 Charles Ovink 以及其他合作者在 IEEE Spectrum 上刊文，呼吁 AI 从业者需要接受更多的培训，从而减轻 AI 可能带来的风险。

3.Meta 创始人兼 CEO 马克·扎克伯格在 Meta 官网刊文称，AI 的发展正朝着开源模式发展，其中 Llama 模型系列正迅速赶上并有望超越闭源模型，成为业界最先进的选择。