今⽇值得关注的⼈⼯智能新动态:
⻢斯克:AI⾏业需要“裁判”
近⽇,美国参议员Chuck Schumer在参议院办公⼤楼举办了⼀场“⼈⼯智能洞察论坛(AI Insight Forum)”,讨论潜在的AI监管问题。与会者包括埃隆·⻢斯克、⽐尔·盖茨、⻢克·扎克伯格、OpenAI的⼭姆·奥尔特曼和英伟达的⻩仁勋等。22名与会者中有14⼈是⾸席执⾏官,⼀些专家表示缺少关键声⾳。
据路透社报道,⻢斯克表示,在这些科技重量级⼈物⻬聚华盛顿讨论AI之后,⼈们对AI的监管达成了“压倒性共识”。⻢斯克主张AI⾏业需要“裁判”,他将AI的监管描述为类似于体育⽐赛,规则是确保公平竞争并保护参与者。“对我们来说,有⼀名仲裁员来确保公司采取安全且符合公众利益的⾏动⾮常重要”。另⼀⽅⾯,扎克伯格则希望推动政府和科技公司之间采取合作⽅式。
他敦促国会“利⽤AI来⽀持创新和保障”,强调让美国公司制定全球标准的战略优势。上周,美国参议员Richard Blumenthal和Hawley提出了⼀个两党⽴法框架,要求从事GPT-4等“⾼⻛险”AI应⽤的公司获得政府许可。
微软开源EvoDiff:新⼀代蛋⽩质⽣成式AI
日前,微软开源了⼀种通⽤的扩散框架EvoDiff,它将进化尺度数据与扩散模型的独特调节能⼒相结合,可在序列空间中可控地⽣成蛋⽩质。EvoDiff能⽣成⾼保真、多样化、结构上合理的蛋⽩质,涵盖⾃然序列和功能空间。重要的是,EvoDiff可以⽣成基于结构的模型⽆法⽣成的蛋⽩质,如那些具有⽆序区域的蛋⽩质,同时还能保持设计功能结构主题⽀架的能⼒,这证明了基于序列公式的通⽤性。
Anthropic与BCG联⼿,为企业提供Claude 2的“直接访问”
⼈⼯智能(AI)独⻆兽初创公司Anthropic宣布与波⼠顿咨询集团(BCG)合作,为其客户提供对Claude 2和Anthropic AI技术的“直接访问”。据介绍,Anthropic将提供技术,⽽BCG将就其战略应⽤向客户提供建议,并帮助他们集成模型以获得业务成果。BCG尚未公开分享Anthropic AI的具体应⽤,但已确认该集成将⽤于综合⻓篇⽂档和研究,包括⽀持市场研究和客户洞察综合。
Arm成功上市,股价上涨25%
经过近两年的IPO市场⼲旱后,英国芯⽚设计公司Arm于周四在Nasdaq debut成功上市,当天收盘上涨25%,公司市值达到约650亿美元。⽬前,苹果、三星、英伟达和⾕歌都在使⽤Arm的设计和指令来制造他们的芯⽚。根据上周提交的⽂件,苹果、⾕歌、英伟达、AMD、三星和台积电等公司均表示有兴趣作为此次发⾏的基⽯投资者。
综述:基于⼤型语⾔模型的代理的崛起与潜⼒
该研究⾸先追溯了代理的概念,从其哲学起源到其在AI中的发展,并解释了为什么⼤型语⾔模型(LLMs)适合作为AI代理的基础,在此基础上,⼜提出了基于LLMs的代理概念框架,由⼤脑、感知和⾏动三个主要部分组成,该框架可根据不同应⽤进⾏定制。随后,研究⼈员⼜从三个⽅⾯探讨了基于LLMs的代理的⼴泛应⽤:单代理场景、多代理场景和⼈——代理合作。
随后,他们深⼊探讨了代理社会,探索了基于LLMs的代理的⾏为和个性、它们组成社会时出现的社
物联⽹中的通⽤AI:机遇与挑战
通⽤⼈⼯智能(AGI)具有与⼈类认知能⼒相同的理解、学习和执⾏任务的能⼒,在科学、商业和社会领域引起了极⼤的期待和关注,这种魅⼒已经延伸到物联⽹(IoT)领域。该研究探索了在物联⽹背景下实现AGI的机遇和挑战。
该论⽂⾸先概述了物联⽹的基本原理以及AGI在物联⽹系统中的关键作⽤,随后深⼊探讨了AGI的基本原理,并最终提出了⼀个将AGI⽆缝集成到物联⽹中的概念框架。此外,该论⽂还探讨了有限计算资源带来的限制、与⼤规模物联⽹通信相关的复杂性以及与安全和隐私相关的重要问题。
MMICL:通过多模态上下⽂学习增强视觉语⾔模型
该研究提出了MMICL,试图从模型和数据两个⻆度来解决这⼀问题。研究引⼊了⼀个精⼼设计的架构,能够以交错的⽅式⽆缝整合视觉和⽂本上下⽂以及MIC数据集,以缩⼩训练数据与实际应⽤中复杂的⽤户提示之间的差距。分析表明,MMICL能有效地应对复杂的多模态提示理解挑战。在ScienceQA-IMG上的实验表明,MMICL成功地缓解了VLM中的语⾔偏差问题。
SingFake:歌声Deepfake检测神器
该研究提出了⼀个可以从在线电⼦书⾃动⽣成⾼质量有声读物的系统。利⽤神经⽂本到语⾳技术的最新进展,从电⼦书库中创建并发布了数千本⼈类质量的开放许可有声读物。此⽅法可以识别电⼦书内容的适当⼦集,以阅读⼤量结构各异的书籍,还可并⾏处理数百本书籍。系统允许⽤户⾃定义有声读物的语速、⻛格和情感语调,甚⾄可以使⽤少量样本⾳频匹配所需的声⾳。
这项⼯作贡献了五千多本开放许可的有声读物和⼀个互动演示,让⽤户可以快速创建⾃⼰的定制有声读物。
⽂本引导的更逼真3D⾯部头像
该研究使⽤合成模型⽣成头像,其中头部、⾯部和上半身使⽤传统的三维⽹格表示,⽽头发、⾐服和配饰则使⽤神经辐射场(NeRF)表示。基于模型的⽹格表示法为⾯部区域提供了强⼤的⼏何先验性,在提⾼逼真度的同时还能对⼈物外观进⾏编辑。
通过使⽤神经辐射场来表示其余部件,该⽅法能够对具有复杂⼏何形状和外观的部件进⾏建模和合成。新系统可根据⽂本描述合成这些⾼质量的合成头像。实验结果表明,利⽤该⽅法⽣成的头像更逼真,具有可编辑性。该功能⽀持虚拟试穿等应⽤。
⽆需微调,⼤型语⾔模型即可⾃我调整
北京⼤学、微软亚洲研究院、悉尼⼤学和滑铁卢⼤学的研究团队介绍了⼀种新颖的推理⽅法——可倒退的⾃动回归推理(RAIN),它允许预先训练好的LLMs评估⾃⼰的⽣成,并使⽤评估结果来指导后退和前向⽣成,以确保AI的安全性。该研究发现,通过整合⾃我评估和倒带机制,未对⻬的LLMs可以通过⾃我提升直接产⽣符合⼈类偏好的反应。