今⽇值得关注的⼈⼯智能新动态:
⾕歌Bard更新,⽀持中⽂了。近⽇,⾕歌发布了Bard新版本。此次更新增加了40多种语⾔,除了中⽂外,还包括阿拉伯语、德语、印地语和⻄班⽛语等。另外,Bard新增了语⾳⽀持,Bard可以⽤语⾳播放回答,该功能现已⽀持40多种语⾔。⽤户还可以更改Bard回答的语⽓和⻛格,包括简单、⻓、短、专业和休闲。
知情消息:Hugging Face正在筹集⾄少2亿美元的D轮融资。据《福布斯》消息,Hugging Face正在审查D轮融资的竞争条款清单,此轮融资预计将筹集⾄少2亿美元。⽬前,Hugging Face的估值为40亿美元,将⼀跃成为该类别中估值最⾼的公司之⼀,与InflectionAI相当,仅次于Anthropic,据报道其估值已接近50亿美元。AI使⽤争议引发美国演员罢⼯,再也看不了好莱坞了?
美国演员⼯会和⼴播电视艺⼈联合⼯会(SAG-AFTRA)宣布,与代表影视制⽚公司利益的电影和电视制⽚⼈联盟(AMPTP)未能达成新协议,确定罢⼯。双⽅⽭盾集中在演员的后期收益、AI的使⽤等⽅⾯。⽐如,⼯会⽅透露制⽚⼈⽅提出的AI使⽤⽅案甚⾄包括“他们可以扫描演员的脸,⽀付演员们⼀天的⼯作报酬,然后他们可以在后续继续使⽤演员的脸和肖像⽽不⽀付报酬和获得允许”。
OpenAI⾯临监管⻛暴:FTC调查揭开ChatGPT的虚假信息漩涡。OpenAI受到美国联邦贸易委员会(FTC)的调查,该调查旨在审查OpenAI旗下的聊天机器⼈ChatGPT是否发布虚假信息,是否对相关个⼈造成了伤害,以及OpenAI如何处理相关⻛险。这次FTC的调查标志着美国监管机构⾸次正式对AI聊天机器⼈的⻛险展开调查。ChatGPT作为当前全球最热⻔的应用程序,⾯临潜在的法律威胁。
印度公司解雇90%员⼯,AI接⼿后成本降幅约85%。最近,⼀家印度初创软件开发商⾯临客户⽀持团队费⽤过⾼的问题,因此决定解雇了技术⽀持团队的90%员⼯,并将其外包给⼀款更⾼效、更经济的AI聊天机器⼈。这个机器⼈的开发商名为Dukaan,提供了⼀个快速部署在线商店的平台。初创公司的创始⼈Suumit Shah在Twitter上透露,这⼀变化缩短了问题解决时间,同时总体客户⽀持成本下降了约85%。
美联社与OpenAI达成新闻共享和技术交易协议。美联社周四表示,其与OpenAI达成了⼀项为期两年的协议,双⽅将共享部分新闻内容和技术。该协议标志着美国主要新闻公司与AI公司之间达成的⾸批官⽅新闻共享协议之⼀。作为协议的⼀部分,OpenAI将可以使⽤美联社1985年以来的部分⽂本档案,以帮助训练其AI算法。作为回报,美联社将获得OpenAI的技术和产品专业知识。
HyperDreamBooth:⽤于⽂本到图像模型快速个性化的超⽹络。为克服个性化过程在时间和内存需求⽅⾯的挑战,Google Research提出了⼀种能够从⼀个⼈的单张图⽚中⾼效⽣成⼀⼩组个性化权重的超⽹络——HyperDreamBooth。
通过将这些权重组合到扩散模型中,并结合快速微调,HyperDreamBooth可以在各种环境和⻛格中⽣成⼀个⼈的⾯部,具有⾼度的主体细节,同时保留模型对不同⻛格和语义修改的关键知识。该⽅法在⼤约20秒内实现了⾯部个性化,仅使⽤⼀张参考图⽚,具有与DreamBooth相同的质量和⻛格多样性。此外,该⽅法⽣成的模型⽐普通DreamBooth模型⼩10000倍。
微软ICAE:⽤于⼤型语⾔模型中上下⽂压缩的⾃动编码器。近⽇,微软研究⼈员提出了⾃动编码器In-context Autoencoder(ICAE),⽤于⼤型语⾔模型(LLM)中的上下⽂压缩。ICAE包括两个模块:可学习的编码器和固定的解码器。实验结果表明,通过预训练和微调范式学习的ICAE能够有效地⽣成具有4倍⼤⼩压缩⽐的存储槽。DRAGON:基于视觉语⾔基础的辅助导航对话机器⼈。
近⽇,伊利诺伊⼤学厄巴纳-⾹槟分校的研究⼈员提出了⼀种由对话系统驱动的引导机器⼈——DRAGON,该机器⼈能够将环境与⾃然语⾔联系起来。通过理解⽤户的命令,DRAGON能够引导⽤户到达地图上的地标、描述环境并回答视觉观察的问题。通过有效利⽤对话,机器⼈可以将⽤户的描述转化为环境中的地标,并通过⼝语向⽤户提供语义信息。
研究结果表明,DRAGON能够与⽤户顺畅地沟通,提供良好的引导体验,并以直观的⽅式将⽤户与周围环境联系起来。AI21 Labs提出FACTOR:⽣成语⾔模型事实性评估⽅法。近⽇,AI21 Labs提出了⼀种可扩展语⾔模型的事实性评估⽅法——FACTOR,即通过语料库转换进⾏事实评估。
FACTOR⾃动将感兴趣的事实语料库转化为⼀个评估基准,⽤于评估语⾔模型⽣成来⾃语料库的真实事实和类似但不正确的陈述的倾向。研究结果表明,基准分数随着模型规模的增加⽽提⾼,并且当语⾔模型与检索进⾏增强时,基准分数也会改善;基准分数与困惑度相关,但这两个度量标准在模型排名上并不总是⼀致;当困惑度和基准分数不⼀致时,后者更能准确反映开放式⽣成中的事实性,这是通过⼈⼯注释员的评估所得出的结论。
DecompEval:将⽣成的⽂本评估为⽆监督分解问答。为应对⾃然语⾔⽣成(NLG)任务评估指标在泛化能⼒和可解释性⽅⾯⾯临的挑战,清华⼤学交互式AI课题组和华为诺亚⽅⾈实验室共同提出了⼀种简单⽽有效的指标——DecompEval。该指标将NLG评估形式化为⼀项基于指令的问答任务,并利⽤经过指令微调的预训练语⾔模型(PLM)⽽⽆需在评估数据集上进⾏训练,从⽽增强泛化能⼒。
实验结果表明,DecompEval在评估⽂本摘要和对话⽣成的未训练指标⽅⾯取得了最先进的性能,同时展示了强⼤的维度级/任务级泛化能⼒和可解释性。综述:⼤型语⾔模型评估。随着⼤语⾔模型(LLMs)在研究和⽇常使⽤中不断发挥重要作⽤,为了更好地了解它们的潜在⻛险,对它们的评估变得越来越重要,该研究从“评价什么”“在哪⾥评价”和“如何评价”三个关键维度对LLMs评价⽅法进⾏了全⾯回顾。
⾸先,该研究从评价任务的⻆度进⾏概述,包括⼀般的⾃然语⾔处理任务、推理、医学应⽤、伦理、教育、⾃然科学和社会科学、代理应⽤等领域;其次,该研究通过深⼊研究评估⽅法和基准来回答“在哪⾥”和“如何”的问题,这些⽅法和基准是评估LLMs性能的关键组成部分;然后,该研究总结了LLMs在不同任务中的成功和失败案例;最后,该研究揭示了LLMs评估未来⾯临的⼏个挑战。
Text2Cinemagraph:从⽂本合成艺术化的动态照⽚。该研究提出了⼀种从⽂本描述中创建动态照⽚的全⾃动⽅法——Text2Cinemagraph。借助现有的⾃然图像和视频数据集,该⽅法可以准确地分割现实图像,并根据语义信息预测出合理的动作,然后将预测的运动转移到艺术图像上,从⽽创建最终的动态照⽚。