AI日报｜OpenAI全面开放GPT-4 API；Stability AI推出新扩散模型SDXL

今⽇值得关注的⼈⼯智能新动态：年薪300万，OpenAI正招募超级AI研究员。OpenAI⼜有了新动作，公司将拿出20%的算⼒来解决AI失控问题。⽬前，OpenAI正在组建新的团队来组织⼀个名为超级智能对⻬（superalignment）的⼯作。

据悉，该团队的⽬标是创建⼀个⾃动对⻬研究员（automated alignment researcher），⾸先训练⼀个⼤致达到⼈类⽔平的AI研究员，再投⼊⼤量算⼒快速迭代，最终实现AI⾃我监管。另外，OpenAI开出了300万+的年薪寻找优秀的超级AI研究员。

Stability AI推出新扩散模型SDXL。近⽇，Stability AI推出了⼀种⽤于⽂本到图像合成的潜在扩散模型SDXL。与之前的Stable Diffusion模型相⽐，该模型利⽤了⼀个三倍⼤的UNet⻣⼲⽹络。值得注意的是，SDXL采⽤了多种创新⽅案，并在多个纵横⽐上进⾏训练。此外，研究团队还引⼊了⼀个改进模型，⽤于通过后期图像到图像技术提⾼SDXL⽣成样本的视觉保真度。

使⽤⼤型语⾔模型构建协作具身代理。近⽇，⻢萨诸塞⼤学等⾼校提出了⼀种利⽤⼤型语⾔模型（LLMs）进⾏多智能体合作的新框架，并在各种具体环境中对其进⾏了测试。该框架使具身代理（Embodied Agents）能够与其他具身代理或⼈类进⾏计划、沟通和合作，从⽽有效地完成⻓期任务。研究证明，⽆需微调或提示，GPT-4等LLMs可以超越强⼤的规划⽅法，并可以使⽤该框架进⾏紧急有效的沟通。

另外，以⾃然语⾔进⾏交流的LLMs代理可以赢得更多信任，与⼈类更有效地合作。

Citation：负责任⼤型语⾔模型的关键。为解决AI带来的知识产权和伦理问题，伊利诺⼤学研究⼈员提出将LLMs与已建⽴的⽹络系统进⾏类⽐。他们认为引⽤（citation）是LLMs中⼀个关键但缺失的组成部分，它可以增强内容的透明度和可验证性，同时解决知识产权和伦理困境。另外，LLMs的全⾯引⽤机制应该考虑⾮参数化和参数化内容。

准确率⾼达75%，⽤BERT预测表情符号。近⽇，为解决表情符号（emoji）的歧义问题，研究⼈员提出了⼀种基于Transformer的⽅法，利⽤⼴泛使⽤的预训练语⾔模型BERT进⾏表情符号预测。他们在包含⽂本和表情符号的⼤型语料库上对BERT进⾏了微调，从⽽预测给定⽂本最合适的表情符号。实验结果表明，该⽅法在表情符号预测⽅⾯表现优于⼏种最先进的模型，准确率超过75%。

⽤⼤型语⾔模型强化推荐系统综述。作为⽇常⽣活的重要组成部分，推荐系统（RecSys）提供了迎合⽤户偏好的个性化建议。与此同时，⼈们也试图利⽤LLMs来增强推荐系统。近⽇，相关研究⼈员从预训练、微调和提示等⽅⾯对现有LLMs授权的推荐系统进⾏了系统概述。他们介绍代表性⽅法，从⽽利⽤特征编码器LLMs来学习⽤户和项⽬的表示。

另外，研究⼈员从预训练、微调和提示三个范式回顾了LLMs增强推荐系统的最新技术，并且全⾯讨论了这个新兴领域的未来⽅向。

格莱美CEO解释AI新规则。上个⽉，美国录⾳学院表示，只有⼈类创作者的作品才有资格获得格莱美奖。近⽇，录⾳学院的⾸席执⾏官和主席Harvey Mason jr.表示，随着⾳乐⾏业继续适应这项新技术，格莱美奖也将相应作出调整。“AI或包含AI创作元素的⾳乐完全有资格参与和争夺格莱美提名。但我们不会将格莱美奖或提名授予AI部分。”

联合国：探索AI潜能。本周四、周五，联合国将在⽇内瓦举⾏“AI for Good Global Summit”。届时，微软和亚⻢逊等公司以及约3,000名来⾃⾼校和国际组织的专家参会。本次峰会试图规划AI的前沿，并利⽤其增强⼈类能⼒的潜⼒。联合国国际电信联盟主席Doreen Bogdan-Martin表示，“我们不能什么也不做。⼈类依赖AI。因此我们必须参与并努⼒确保AI负责任的未来。”

OpenAI被两位作家起诉了。近⽇，美国两名作家对OpenAI提起诉讼，声称ChatGPT在未经授权的情况下使⽤他们的作品进⾏训练。这两名作家指出，ChatGPT⽣成的书籍简单明了，与他们的⽂章完全⼀样，这表明ChatGPT的训练数据集中包含了他们的作品。⽬前，OpenAI尚未对此事做出回应。萨塞克斯⼤学知识产权法专家Andres Guadamuz表示，这是涉及ChatGPT版权的⾸起诉讼案。

该诉讼将探讨⽣成式AI领域的“合法性边界”问题。

AI正在助⼒视障⼈⼠。Ask Envision是⼀款由GPT-4提供⽀持的AI助⼿，具备多模态能⼒，可以接收图像和⽂本，并⽣成对话式回应。该系统是为视障⽤户打造的⼏款辅助产品之⼀，能够为⽤户提供更多关于周围世界的视觉信息，并提升⽤户的独⽴性。⽬前，通过结合GPT-4，Envision扩展了其功能，已具备图像到⽂本的描述能⼒。

Be My Eyes是⼀款已有12年历史的应⽤程序，可帮助⽤户识别周围物体，并于今年3⽉引⼊了GPT-4。根据微软的AI负责⼈Sarah Bird表示，作为OpenAI的主要投资者，微软已经开始在其SeeingAI服务中进⾏与GPT-4的集成测试，该服务提供类似的功能。

另外，⻄奈⼭伊坎医学院（Icahn School of Medicine at Mount Sinai）成⽴了眼科AI与⼈类健康中⼼，这是纽约⾸个此类中⼼。该中⼼致⼒于推进眼科领域AI的发展，进⼀步将⻄奈⼭医疗系统定位为通过创新和技术为患者提供护理的领导者。

美国军⽅测试⽣成式AI。美国军⽅已经开始测试⽣成式AI是否可以在规划应对潜在全球冲突或执⾏更普通任务时提供帮助。空军上校Matthew Strohmeyer表示，最初的测试结果⾮常成功，但他也承认⽬前尚未“完全准备好迎接⻩⾦时段”。

会画猫咪的⼈形机器⼈。⼈形机器⼈Ameca学会画猫咪了。该机器⼈的背后是⼀家设计、⼯程和制造⼈形机器⼈的公司——Engineered Arts。此前，⼯程艺术已经证明了Ameca表达多种不同⼈类情感的能⼒以及⽤多种语⾔说话的能⼒。

OpenAI全⾯开放GPT-4 API。今⽇，OpenAI宣布GPT-4 API全⾯开放使⽤。

所有付费API⽤户都可直接访问8K上下⽂的GPT-4，预计到7⽉底之前，OpenAI会向全新的开发⼈员开放GPT-4 API使⽤权限。此外，OpenAI还推出了GPT-3.5 Turbo、DALL·E和Whisper API。同时，今年晚些时候将推出安全、可靠的GPT-4和GPT-3.5 Turbo的微调版本。

mPLUG-DocOwl：⽤于⽂档理解的模块化多模态⼤型语⾔模型。

近⽇，阿⾥巴巴达摩院提出了基于mPLUG-Owl的mPLUG-DocOwl，⽤于⽆OCR⽂档理解。他们⾸先构建了⼀个包含⼴泛视觉-⽂本理解任务的指令调优数据集。然后通过统⼀的指令调优策略，将模型在语⾔、通⽤视觉语⾔和⽂档指令调优数据集上进⾏联合训练，以增强⽆OCR⽂档理解能⼒。另外，为更好地⽐较模型在指令遵守和⽂档理解⽅⾯的能⼒，他们还构建了⼀个⽆OCR⽂档指令理解评估集LLMDoc。

实验结果表明，该模型优于现有的多模态模型，展示了强⼤的⽂档理解能⼒。此外，在没有特定的微调情况下，mPLUG-DocOwl在各种下游任务上具有很好的泛化能⼒。

Curious Replay：提升基于模型智能体的适应能⼒。现有基于模型的强化学习智能体在适应环境变化时表现不佳。为解决这⼀问题，斯坦福⼤学研究⼈员提出了⼀种针对基于模型智能体的优先经验回放⽅法Curious Replay。

使⽤Curious Replay的智能体在受动物⾏为启发的探索范式和Crafter基准测试中表现出了更好的性能。使⽤Curious Replay的DreamerV3在Crafter上超越了最先进的性能，平均得分达到19.4，⼤⼤提⾼了之前14.5的最⾼得分。并且在DeepMind Control Suite上保持同样性能。