今⽇值得关注的⼈⼯智能新动态:⻢斯克⾼调公布xAI,宣战OpenAI。⾕歌推出NotebookLM。⾕歌⾯临集体诉讼:指控窃取互联⽹信息。GPT-4 ⼜懒⼜笨?原因可能在这⾥。VELMA:街景视觉和语⾔导航的 LLM 代理的语⾔化体现。VoxPoser:实现零样本操纵机器⼈。
当地时间周三,特斯拉公司⾸席执⾏官⻢斯克正式宣布成⽴ xAI,这家公司旨在了解宇宙的本质。⻢斯克将亲⾃领导其核⼼团队,并依托 Google DeepMind、微软和特斯拉等科技巨头以及学术机构等⼀批 AI ⾏业的资深⼈⼠,与 OpenAI 展开竞争。与此同时,xAI 还宣布, Center for AI Safety 现任主任 Dan Hendrycks 将为该团队提供建议。
⾕歌在今年的 I/O 开发者⼤会上推出的 AI ⽀持的笔记⼯具 Project Tailwind 重新命名为NotebookLM,在继续完善该产品的同时,⾕歌将向美国的⼀⼩部分⽤户推出该产品。作为⼀款经过⽤户⽂档训练的 AI 笔记本,NotebookLM 主要为经常接触⼤量⽂本的⽤户提供个性化导师或写作伴侣。
近⽇,美国⼀家律所向加州联邦法院提起了针对⾕歌、Alphabet 和 Google DeepMind 的集体诉讼。该律所此前于上个⽉对 OpenAI 提起了类似诉讼。诉状称,⾕歌“⼀直在秘密窃取数亿美国⼈在互联⽹上创建和共享的所有内容”,并利⽤这些数据来训练其 AI 产品。另外,⾕歌已经“⼏乎利⽤了我们的全部数字⾜迹”,包括“创意和⽂案作品”。⾕歌回应称这些指控毫⽆根据。
最近⼏周,OpenAI GPT-4 的⽤户⼀直在⼤声抱怨性能下降,⼀些⼈称该模型与之前的推理能⼒和其他输出相⽐“更懒”、“更笨”。初创公司 Lamini ⾸席执⾏官 Sharon Zhou 等专家表示,OpenAI 正在创建⼏个较⼩的 GPT-4 模型,其⾏为与⼤型模型类似,但运⾏成本较低。这种⽅法被称为 Mixture of Experts(MOE)。
每个较⼩的专家模型都接受不同任务和主题领域的训练。当 GPT-4 ⽤户提出问题时,新系统知道将该查询发送给哪个专家模型。为了以防万⼀,新系统可能会决定向两个或多个专家模型发送查询,然后将结果混合在⼀起。
为将视觉和语⾔导航( VLN )与交互式视觉环境实现最佳连接,德国海德堡⼤学、加利福尼亚⼤学圣芭芭拉分校和 IWR 共同提出了⼀种具体化的 LLM 代理——VELMA,该模型使⽤轨迹和视觉环境观察的⼝头描述作为下⼀步⾏动的上下⽂提示。视觉信息通过从⼈类编写的导航指令中提取地标,并使⽤ CLIP 确定它们在当前全景视图中的可⻅性的流⽔线进⾏语⾔化处理。
研究展示了 VELMA 在 Street View 中能够仅凭两个上下⽂示例成功遵循导航指令。另外,研究⼈员在数千个示例上进⼀步微调 LLM 代理,与两个数据集的先前最先进技术相⽐,任务完成率相对提⾼了 25%-30%。近⽇,AI 专家李⻜⻜带领的团队发布了具身智能最新成果:⼤模型接⼊机器⼈,把复杂指令转化成具体⾏动规划,⼈类可以很随意地⽤⾃然语⾔给机器⼈下达指令。
更重要的是,通过将⼤型语⾔模型( LLM )+ 视觉语⾔模型( VLM )结合在⼀起,机器⼈与环境进⾏交互的能⼒进⼀步提升,⽆需额外数据和训练便可完成任务。李⻜⻜团队将该系统命名为 VoxPoser,相⽐传统⽅法需要进⾏额外的预训练,这个⽅法让机器⼈在零样本的前提下完成操作,解决了机器⼈训练数据稀缺的问题。⽬前项⽬主⻚和论⽂都已上线,代码即将推出。