AI日报｜微软高管：要对AI使用礼貌的语⽓；ChatGPT与Stack Overflow，谁的回答更好？

微软Copilot设计团队主管：要对AI使用礼貌的语⽓。我们都听过“以其⼈之道还治其⼈之身”的忠告，但这适用于人工智能（AI）吗？日前，微软Copilot设计团队主管库Kurtis Beavers建议用户在与人工智能互动时使用基本礼仪，因为这有助于产生相互尊重和协作的结果。

尽管一些学校限制了生成式人工智能的使用，但香港大学（HKU）正在全力敦促教师和学生接受这项技术。如今，香港大学向教师和学生免费提供各种生成式AI工具，包括微软Azure OpenAI和OpenAI的ChatGPT和DALL-E。最近的大型语言模型（LLMs）表现出了各种有趣的能力，模型的快速进步给评估基准的开发带来了挑战。

研究人员提出了MM-Vet，它的设计基于这样一种认识，即通用模型实现了解决复杂任务的惊人能力。MM-Vet定义了6种核心视觉语言能力，并研究了由能力组合产生的16种相关集成。在评估指标方面，他们提出了一种基于LLMs的开放式输出评估器。该评估器可对不同的问题类型和答案风格进行评估，从而得出统一的评分标准。在MM-Vet上评估了具有代表性的LLMs，从而深入了解了不同LMM系统范例和模型的能力。

进行文献综述的过程往往耗时耗力。为了简化这一过程，研究人员提出了一个AI文献综述套件，它集成了多种功能，可提供全面的文献综述。该工具利用开放存取科学、大型语言模型（LLMs）和自然语言处理的力量，实现了对PDF文件的搜索、下载和整理，以及从文章中提取内容。

通过用户友好的图形用户界面（GUI），增强了与PDF的交互，该套件还具有用于书目组织、交互和查询以及文献综述摘要的集成程序，提供了一个强大的解决方案，可自动优化学术和工业研究中的文献综述流程。最近，生成式AI吸引了研究界的目光，因为人们对透明度和相关问题的担忧，引发了有关其在医疗保健领域应用的争论。然而，生成式AI在医疗保健领域的伦理原则还没有得到充分研究，决策者往往没有考虑到生成式AI的意义。

该研究针对医疗保健领域的AI生成技术提出了GREAT PLEA伦理原则，包括治理、可靠性、公平性、问责制、可追溯性、隐私、合法性、同理心和自主性。目标是积极应对将人工智能融入医疗保健所带来的伦理困境和挑战。

该研究主张AI时代的课程和考试必须基于两个因素来设计：(1)人工智能的优势和局限性，(2)教学目标。研究人员首先探讨了教育的作用，并回顾了教育机构必须努力实现的主要目标，这些目标与任何技术无关。他们展示了2022年12月至2023年3月期间进行的七次ChatGPT授权考试的数据分析结果。考试数据结果表明，学生的成绩与他们是否使用ChatGPT回答考试问题之间没有相关性。

尽管ChatGPT很受欢迎，但还没有一项全面的研究评估对ChatGPT回答软件工程问题的特点或可用性。为了弥补这一空白，研究人员首次对ChatGPT回答的517个Stack Overflow（SO）问题进行了深入分析，并考察了ChatGPT的答案。此外，他们还进行了大规模的语言分析和用户研究。分析表明，52%的ChatGPT答案是错误的，77%是冗长的。

尽管如此，由于ChatGPT答案内容全面，语言风格清晰明了，因此仍有39.34%的人选择ChatGPT答案。结果表明，有必要对ChatGPT中的错误进行仔细检查和纠正，同时让用户意识到看似正确的ChatGPT答案所带来的风险。近几个月来，出现了一种强大的新趋势，即通过增强大型语言模型（LLMs），使其成为自主的语言代理，能够独立执行以目标为导向的多步骤任务。

然而，现有的多数语言代理并没有利用特定环境奖励进行优化。据介绍，有一种通过学习回顾模型来强化大型语言代理的原则性框架，该框架可通过策略梯度自动调整语言代理的环境反馈提示。具体来说，这个代理架构可从多个环境和任务的奖励中学习，以微调预先训练好的语言模型，该模型可通过总结之前失败尝试的根本原因和提出行动计划来完善语言代理提示。

随着人工智能技术的飞速发展，人们对数字市场中的巨无霸风险的担忧也与日俱增。欧盟的《数字市场法案》（DMA）旨在应对这些风险。不过，目前的框架可能还不足以涵盖可能成为AI服务网关的生成式AI系统。该研究主张将某些人工智能软件整合为核心平台服务，并根据《数字市场法》将某些开发商归类为守门人。还建议对把关人义务进行评估，以确保其涵盖生成式AI服务。