AI日报|90%准确率,AI算法要用于火星生命探测了;微软:下一代核反应堆将为AI提供动力

来源: 学术头条

发布日期: 2023-09-27 17:05:30

本文主要介绍了人工智能在多个领域的最新进展,包括核能、太空探索、视频生成、模型可靠性、语言模型对齐、文本生成质量、创造性评估、社会偏见、AI代理以及AIGC在数字故事制作中的应用。文章详细探讨了这些技术的发展现状、挑战以及潜在的应用前景。

微软公司发布了首席项目经理的招聘启事,该项目经理将领导公司的核能战略,微软认为下一代核反应堆可以为其数据中心和人工智能雄心提供动力。数据中心已经耗费了大量电力,这可能会阻碍公司的气候目标,除非它能找到清洁能源。人工智能的高能耗让公司面临更大的挑战。在微软上周举行的Surface大会上,人工智能占据了主导地位。探索其他世界的航天器上搭载的传感器能够探测到显示外星生命的分子。

然而,众所周知,暗示着有趣的生物过程的有机分子会随着时间的推移而降解,因此目前的技术很难发现它们的存在。近日,一种新开发的基于人工智能(AI)的方法能够检测到分子模式的细微差别,而这些细微差别表明了生物信号——即使在数亿年前的样本中也是如此。根据新的研究,这种机制的结果准确率高达90%。

未来,这种AI系统可能会被嵌入机器人太空探索器上更智能的传感器中,包括月球和火星上的着陆器和漫游车,以及环绕土卫二和木卫二等潜在宜居世界的航天器。虽然近期的文本到视频(T2V)生成方法取得了显著进步,但这些方法大多侧重于生成具有单一背景的单个事件的短视频片段。与此同时,最近的大型语言模型(LLMs)已经证明了它们在生成布局和程序控制下游视觉模块方面的能力。

这就提出了一个重要问题:能否利用这些LLMs中蕴含的知识来生成时间上一致的长视频?该研究提出了VideoDirectorGPT,这是一种用于多场景一致视频生成的新型框架,它利用LLM的知识进行视频内容规划和基础视频生成。

实验证明,VideoDirectorGPT框架大大改进了单场景和多场景视频生成中的布局和移动控制,并能生成具有跨场景视觉一致性的多场景视频,同时在开放域单场景T2V生成中取得了与SOTAs相当的性能。此外还证明了该框架可以动态控制布局引导的强度,还可以生成带有用户提供的图像的视频。

斯坦福大学、伊利诺伊大学厄巴纳-尚佩恩分校、加州大学伯克利分校和微软研究院研究了基于Transformer的大型语言模型(LLMs)在生成与事实不符的文本时的行为。他们建议将事实查询建模为“约束满足问题”,并使用此框架研究模型如何与事实约束进行内部交互。该研究提出的SAT Probe是一种探测自我注意力模式的方法,它可以预测约束满意度和事实错误,并允许早期识别错误。

该方法和研究结果表明,在LLM中使用对事实性的机械理解可以提高可靠性。近年来,大型语言模型(LLMs)取得了长足的进步。这些进步在引起广泛关注的同时,也引发了各种担忧。不可否认,这些模型具有巨大的潜力;但是,它们可能产生不精确、误导甚至有害的文本。因此,采用对齐技术确保这些模型表现出符合人类价值观的行为就变得至关重要。该调查旨在结合该领域的现有能力研究,广泛探讨为LLM设计的对齐方法。

从人工智能对齐的视角出发,将现有的方法和新出现的建议分为外部对齐和内部对齐。研究人员还探究了一些突出问题,包括模型的可解释性,以及在对抗性攻击面前的潜在脆弱性。为了评估LLM对齐情况,他们还介绍了各种基准和评估方法。文本到图像生成模型能够根据文本提示生成高保真图像,因而受到广泛关注。其中,稳定扩散(Stable Diffusion)模型是这一快速发展领域中领先的开源模型。

然而,微调这些模型的复杂性带来了从新方法整合到系统评估的多重挑战。为了解决这些问题,该研究介绍了LyCORIS,这是一个开源库,为稳定扩散提供了多种微调方法。此外,研究人员还提出了一个全面的框架,用于系统地评估各种微调技术。该框架采用了一些不同的指标,并深入研究了微调的多个方面,包括超参数调整和对不同概念类别的不同提示类型进行评估。从博客到故事,大型语言模型(LLMs)都表现出了高质量的写作能力。

然而,客观评价一篇文章的创造性是一项挑战。托伦斯创造性思维测试(TTCT)将创造性作为一个过程来衡量,受此启发,该研究采用共识评估技术,提出了托伦斯创造性写作测试(TTCW),将创造性作为一个产品来评估。TTCW由14个二元测验组成,分为流畅性、灵活性、独创性和阐述性四个原创维度。该研究招募了10位创意作家,并使用TTCW对专业作家或LLMs撰写的48篇故事进行了人工评估。

分析表明,LLMs生成的故事通过TTCW测试的次数比专业人员编写的故事少3-10倍。此外,该研究还探索了使用LLMs作为评估者来自动进行TTCW评估的方法,结果发现,没有一个LLMs与专家评估结果呈正相关。近年来,机器学习(ML)模型,尤其是基于Transformer的预训练模型的迅速发展,给自然语言处理(NLP)和计算机视觉(CV)领域带来了革命性的变化。

然而,研究人员发现,这些模型可能会无意中捕捉和强化训练数据集中存在的社会偏见,从而导致潜在的社会危害。解决这些偏见并确保人工智能(AI)系统的公平性已成为ML界的一个重要问题。最近,新兴的多模态领域引入了预先训练好的视觉语言(VL)模型,这就要求人们关注这些模型中可能存在的社会偏见。虽然VL模型容易受到社会偏见的影响,但与NLP和CV中对偏见的广泛讨论相比,人们对VL模型的了解还很有限。

该研究旨在为研究人员提供一个全面的视角,让他们了解NLP、CV和VL预训练模型中社会偏见研究的异同。通过研究这些观点,该研究旨在为如何在单模态和多模态环境中处理和减轻社会偏见提供有价值的指导。由于大型语言模型(LLMs)所展示的强大功能,最近出现了一股将其与人工智能代理(AI agents)集成以提高其性能的热潮。该研究探讨了基于LLM的AI代理与传统AI代理之间的核心差异和特点。

具体来说,该研究首先比较了这两类代理的基本特征,阐明了基于LLM的代理在处理自然语言、知识存储和推理能力方面的显著优势。随后,该研究深入分析了AI代理的关键组成部分,包括规划、记忆和工具使用。特别是针对记忆这一关键部分,该研究提出了一种新的分类方案,不仅跳出了传统的分类方法,而且为AI代理的记忆系统设计提供了一个全新的视角。

研究认为,对这些核心组件的深入研究和理解将为AI代理技术的未来发展奠定坚实的基础。最后,该研究为这一领域的进一步研究提出了方向性建议,希望能为相关领域的学者和研究人员提供有价值的见解。数字故事制作作为一种艺术形式,一直存在成本与质量之间的矛盾。人工智能生成内容(AIGC)的出现,被认为是高效数字故事制作的潜在解决方案。

然而,这种融合的具体形式、效果和影响仍不明确,使得AIGC与讲故事相结合的边界尚未确定。该研究探讨了AIGC与数字故事制作的融合现状,在一个项目样本中研究了两者融合的艺术价值,并通过访谈解决了一些常见问题。该研究得出结论:AIGC虽然在图像创作、配音制作和音乐创作方面表现出色,但由于人类的创造力和审美,尤其是在复杂的人物动画、面部表情和声音效果方面,目前还存在不可替代的因素,因此还不足以取代人类。

研究目标是提高公众对AIGC与数字故事制作相结合的现状、局限性和挑战的认识。

UUID: 4eb65917-70f6-4ee8-959a-25826f11d092

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-09-27_AI日报|90%准确率,AI算法要用于火星生命探测了;微软:下一代核反应堆将为AI提供动力_20230927_170848.txt

是否为广告: 否

处理费用: 0.0075 元