清华团队提出“智能体医院”:医⽣智能体可实现⾃我进化|⼤模型周报

作者: 库珀

来源: 学术头条

发布日期: 2024-05-12 08:24:19

清华团队提出“智能体医院”概念,通过大型语言模型驱动的自主智能体模拟医院环境,实现医⽣智能体的自我进化,提升治疗效果。同时,清华和智谱AI团队在图像生成和代码评测方面也推出了多项创新模型和基准,展示了在大模型领域的最新研究成果。

清华团队提出“智能体医院”:医⽣智能体可实现⾃我进化。在这项⼯作中,来⾃清华⼤学的研究团队提出了⼀种名为“智能体医院”(Agent Hospital)的模拟医院,它可以模拟治疗疾病的整个过程。其中,所有病⼈、护⼠和医⽣都是由⼤型语⾔模型(LLM)驱动的⾃主智能体。该研究的核⼼⽬标是让医⽣智能体学会如何在模拟环境中治疗疾病。为此,研究团队提出了⼀种名为 MedAgent-Zero 的⽅法。

由于仿真系统可以根据知识库和 LLM 模拟疾病的发⽣和发展,医⽣智能体可以不断从成功和失败的病例中积累经验。模拟实验表明,医⽣智能体在各种任务中的治疗效果都在不断提⾼。更有趣的是,医⽣智能体在“智能体医院”中获得的知识适⽤于现实世界的医疗保健基准。

在治疗了约⼀万名患者后(现实世界中的医⽣可能需要花费两年多的时间),进化后的医⽣智能体在涵盖主要呼吸系统疾病的 MedQA 数据集⼦集上达到了 93.06% 的准确率。

清华、智谱AI团队推出⽆限超分辨率模型 Inf-DiT。近年来,扩散模型在图像⽣成⽅⾯表现出了卓越的性能。

然⽽,由于在⽣成超⾼分辨率图像(如 4096*4096)的过程中内存会⼆次增加,⽣成图像的分辨率往往被限制在 1024*1024。在这项⼯作中,来⾃清华和智谱AI的研究团队提出了⼀种单向块(unidirectional block)注意⼒机制,其可以在推理过程中⾃适应地调整内存开销,并处理全局依赖关系。

在此模块的基础上,他们采⽤ DiT 结构进⾏上采样,并开发了⼀种⽆限超分辨率模型,能够对各种形状和分辨率的图像进⾏上采样。综合实验表明,这⼀模型在⽣成超⾼分辨率图像⽅⾯达到了机器和⼈⼯评估的 SOTA 性能。与常⽤的 UNet 结构相⽐,这⼀模型在⽣成 4096*4096 图像时可以节省 5 倍以上的内存。

具有 3D 理解能⼒的语⾔-图像模型。

多模态⼤型语⾔模型(MLLMs)在各种 2D 视觉和语⾔任务中表现出了惊⼈的能⼒。来⾃德州⼤学奥斯汀分校、英伟达的研究团队将 MLLM 的感知能⼒扩展进了 3D 空间的图像基准(ground)和推理。

他们⾸先开发了⼀个⼤规模的 2D 和 3D 预训练数据集——LV3D,该数据集将现有的多个 2D 和 3D 识别数据集结合在⼀个共同的任务表述下:作为多轮问题解答;然后,他们提出了⼀种名为 Cube-LLM 的新型 MLLM,并在 LV3D 上对其进⾏了预训练。研究表明,纯粹的数据缩放可以产⽣强⼤的 3D 感知能⼒,⽽⽆需特定的 3D 架构设计或训练⽬标。

另外,Cube-LLM 具有与 LLM 相似的特性:1)Cube-LLM 可以应⽤思维链提示,从 2D 上下⽂信息中提⾼ 3D 理解能⼒;2)Cube-LLM 可以遵循复杂多样的指令,并适应多种输⼊和输出格式;3)Cube-LLM 可接受视觉提示,如专家提供的 2D box 或⼀组候选 3D box。

室外基准测试表明,Cube-LLM 在 3D 基础推理 Talk2Car 数据集和复杂驾驶场景推理 DriveLM 数据集上的表现,明显优于现有基准,分别⽐ AP-BEV ⾼出 21.3 分和 17.7 分。

此外,Cube-LLM 还在 MLLM 基准(如⽤于 2D 基础推理的 refCOCO)以及视觉问题解答基准(如⽤于复杂推理的 VQAv2、GQA、SQA、POPE 等)中显示出具有竞争⼒的结果。

清华、智谱AI团队推出代码评测基准 NaturalCodeBench。⼤型语⾔模型(LLM)在为⽣产活动⽣成代码⽅⾯表现出强⼤的能⼒。

然⽽,⽬前的代码合成基准,如 HumanEval、MBPP 和 DS-1000,主要⾯向算法和数据科学的⼊⻔任务,不能充分满⾜现实世界中普遍存在的编码挑战要求。为了填补这⼀空⽩,来⾃清华⼤学和智谱AI的研究团队提出了⾃然代码基准(NaturalCodeBench,简称 NCB),这是⼀个具有挑战性的代码基准,旨在反映真实编码任务的复杂性和场景的多样性。

据介绍,NCB 由 402 个 Python 和 Java 中的⾼质量问题组成,这些问题都是从在线编码服务的⾃然⽤户查询中精⼼挑选出来的,涵盖 6 个不同的领域。考虑到为真实世界的查询创建测试⽤例异常困难,他们还提出了⼀个半⾃动化管道,从⽽提⾼测试⽤例构建的效率。与⼈⼯解决⽅案相⽐,其效率提⾼了 4 倍多。

他们在 39 个 LLM 上进⾏的系统实验发现,HumanEval 分数接近的模型之间在 NCB 上的性能差距仍然很⼤,这表明我们对实际代码合成场景缺乏关注,或者对 HumanEval 进⾏了过度优化。另⼀⽅⾯,即使是性能最好的 GPT-4 在 NCB 上的表现也远远不能令⼈满意。

UUID: 4bcfb909-b088-4b71-9738-c9322711e979

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-05-12_清华团队提出“智能体医院”:医生智能体可实现自我进化|大模型周报.txt

是否为广告: 否

处理费用: 0.0089 元