AI日报｜清华领衔新研究：让大模型掌握16000多个真实世界API；洪水来了？这个AI提前7天预测

学术头条

2023-08-01 18:37:44

收录于话题

#AI日报

今⽇值得关注的⼈⼯智能新动态：

⾕歌⼜有⼤⼯作：Google助理将接⼊⽣成式AI

据Axios的⼀份报告指出，⾕歌正计划更新其Google助理，引⼊⽣成式AI功能。⾕歌正在探索由最新的⼤型语⾔模型（LLMs）提供⽀持的超级助⼿，该助⼿类似于ChatGPT和⾕歌⾃家的Bard聊天机器⼈所采⽤的技术。然⽽，这⼀变化带来了部分职位的裁减。

亚⻢逊CEO亲⾃上场，要打造最具野⼼的AI项⽬

据Insider报道，亚⻢逊⾸席执⾏官Andy Jassy⽬前亲⾃领导⼀⽀全新⼩组，该⼩组正在进⾏公司最具野⼼的AI项⽬。在6⽉下旬的⼀封信中，Jassy宣布其下属Rohit将领导⼀个核⼼团队，致⼒于打造亚⻢逊最具扩展性的⼤型语⾔模型（LLMs）。

MIT新研究：⽤AI防范AI图像操纵

当前，越来越多的不法分⼦滥⽤DALL·E和Midjourney等先进的⽣成模型从事不法⾏为，他们可以精确地制作和操纵图像，从⽽模糊现实与虚构之间的界限。对此，麻省理⼯学院（MIT）计算机科学与⼈⼯智能实验室（CSAIL）的研究⼈员开发了⼀种名为“PhotoGuard”的技术——可以利⽤扰动（⼈眼看不⻅但可以通过计算机模型检测到的像素值的微⼩变化）有效地破坏模型操纵图像的能⼒。

戴尔⼊场，全⼒投⼊⽣成式AI

不仅仅是软件公司想加⼊⽣成式AI的竞争，PC制造商戴尔发布了戴尔⽣成式AI解决⽅案，供客户设置对⼤型语⾔模型的访问并创建⽣成式AI项⽬，并将提供新的硬件设置、托管服务平台和计算机，以更快地运⾏此项⽬。

AI⾏李箱问世，帮助视障⼈⼠实现轻松导航

为帮助盲⼈或弱视旅⾏者实现轻松导航，⽇本研究⼈员和公司联⼿开发了⼀种名为“⼈⼯智能⼿提箱”（AISuitcase）的引导机器⼈。这项开创性的辅助技术⽇前在海外进⾏了⾸次公开试验，当⼿提箱投⼊商⽤时，开发团队希望⽤户能够通过⾃⼰的智能⼿机⾃⾏操作它。

洪水来了？这个AI提前7天预测洪水是最常⻅、影响最⼤的⾃然灾害之⼀，会严重破坏⼈们的⽇常⽣活。

近⽇，⾕歌、欧洲中期天⽓预报中⼼和兰德公司合作开发了⼀种AI模型，该模型能够预测⻓达7天前的极端⽔⽂事件，在全球范围内、各⼤洲、预报提前期和重现期上的表现，远超⽬前最先进的全球⽔⽂模型。值得⼀提的是，在10年重现期事件上，该AI模型的准确性与⽬前2年重现期事件的准确性相近，这意味着AI能够提供更早、更⼤规模和更具影响⼒的预警。

⽬前，该模型已被整合进运⾏中的预警系统，为80多个国家提供实时的公开可⽤预报，且免费对外开放。

AI如何超越⽓候预测、促进预测⾏动？

虽然机器学习模型在⽓候预测⽅⾯取得了显著的进展，但在促进预测性⾏动⽅⾯仍存在⽅法上的差距。为了弥补这⼀问题，约翰斯·霍普⾦斯⼤学和斯坦福⼤学提供了预测性⾏动的概述，审视了机器学习的相关应⽤，同时识别了常⻅挑战。

最先进的⽣成模型，值得信任吗？

⽬前，关于⼤规模⽣成模型及其可信度交叉的综合调查还相对较少。为了填补这⼀研究空⽩，华东师范⼤学与阿⾥巴巴集团联合开展了调查，针对这些模型所涉及的⻓期和新兴威胁进⾏了深⼊探讨，包括隐私、安全、公平和责任四个基本维度。通过这种⽅式，研究⼈员构建了⼀个⼴泛的信任度地图，并提供了实⽤的建议，同时也确定了未来的发展⽅向。

这些提示策略，可提⾼⼤模型的个性化推荐能⼒

为提⾼⼤型语⾔模型（LLMs）在个性化内容推荐⽅⾯的性能，来⾃罗切斯特⼤学、加利福尼亚州⽴⼤学和Meta AI的研究⼈员通过输⼊增强探究了多种提示策略。他们提出了⼀种名为LLM-Rec的⽅法，该⽅法包含四种独特的提示策略：基本提示、推荐驱动提示、参与引导提示以及推荐驱动+参与引导提示。实验结果表明，将LLMs⽣成的增强输⼊⽂本与原始内容描述相结合，并利⽤这些提示策略，可以提⾼推荐性能。

如何规避⼤型语⾔模型的欺骗能⼒？未来的⼤型语⾔模型（LLMs）可能会具备欺骗⼈类的能⼒，并且利⽤这⼀能⼒来规避监测。因此，LLMs需要具备欺骗策略的概念理解。德国斯图加特⼤学的研究揭示了这样的策略在最先进的LLMs（如GPT-4）中出现，⽽在早期的LLMs中并不存在。

实验显示，最先进的LLMs能够理解并诱导其他代理产⽣虚假信念，在复杂的欺骗场景中，它们的表现可以通过思维连（CoT）推理得到增强，⽽激发⻢基雅维利主义（Machiavellianism）可以改变它们欺骗的倾向。

在⼀个⼤模型中，统⼀图像、视频、⾳频和语⾔任务

法国索邦⼤学的⼀篇论⽂探讨了⼤型语⾔模型（LLMs）的统⼀性和在⽀持多种任务和模态⽅⾯的重要性。他们提出了⼀个⾼效的统⼀模型——UnIVAL，该模型能够在⼀个框架中融合⽂本、图像、视频和⾳频。通过多任务平衡和多模态课程学习的预训练⽅法，UnIVAL展现了与现有最先进⽅法相媲美的性能。

清华领衔新研究：当⼤模型掌握16000多个真实世界API

为促进开源⼤型语⾔模型（LLMs）⼯具的使⽤能⼒，清华⼤学、中国⼈⺠⼤学、腾讯和知乎联合引⼊了通⽤⼯具使⽤框架——ToolLLM，⽤于数据构建、模型训练和评估。为提⾼搜索效率，他们开发了⼀种新的基于深度优先搜索的决策树（DFSDT），使LLMs能够评估多个推理轨迹并扩展搜索空间。通过ToolEval⾃动评估器，研究有效评估了⼯具的使⽤情况。

在ToolBench上微调LLaMA并获得ToolLLaMA，ToolEval揭示了ToolLLaMA在执⾏复杂指令和泛化到未⻅过的API⽅⾯的⾮凡能⼒，其性能与ChatGPT相当。