OpenAI:俩⼆;Google:四个王
原创
沈知涵
果壳
2024-05-15 10:46:45
收录于话题
#科技解读 #AI
真的来了
⼜⼀次,OpenAI 身着华服表演了⼀个惊艳全场的魔术;但⼀转眼,Google 把秘籍指南和道具打了个包,来了个全员⼤派送。
果壳来到了 Google I/O ⼤会⼁⾕歌
是的,和 24 ⼩时前那种仍然极具科幻感的炫示相⽐,今天在 Google I/O 开发者⼤会上的内容更能令每个普通⼈信服,我们早已身处这个 AI 时代之中——当然,按照 Google CEO 桑达尔·劈柴的说法,“⼀个 Gemini 的时代”。
所谓“Gemini 时代”始于⼀年前,2023 年的 I/O ⼤会上,劈柴公布了这个模型。在之后的⼀年中,Gemini 不温不⽕,也没少遭遇⼀些啼笑皆⾮的争议(有些的确很尴尬)。⼀年过去了,“搜索”变了,“⾕歌助理”变了,连万年不变的“办公全家桶”都变了。
“蒸馏”⼀个⼤模型
Google 说知道⽤户总“吵吵”别⼈家模型延迟⼩,成本低。于是这次,推出 Gemini 1.5 Flash 轻量级模型,速度更快,效率更⾼,从⽽能覆盖更多的⽤户。Google 表示,就其模型尺⼨来说,它对⼤量信息进⾏多模态处理的表现,还算不错。1.5 Flash 擅⻓总结,聊天,凝练图像和视频,从⻓⽂档和表格中提取信息。
Gemini 1.5 Flash 通过 1.5 Pro“蒸馏”得来,“知识蒸馏”是⼀种模型压缩技术,让⼩模型学习⼤模型,将重要的知识和技能迁移过来。
说到 Gemini 1.5 Pro,随着今天的 I/O ⼤会已经完全开放,覆盖 150 个国家,35 个语⾔,⽤户只要订阅了 Gemini Advanced,就能⽤上了。
Gemini 1.5 Pro(和 1.5 Flash)⽀持 100 万 tokens 理解,是⽬前⼤模型服务中所能⽀持的最⻓上下⽂输⼊。如果你不好理解,换算⼀下,⼤概是让它帮你总结 1500 ⻚⽂档,或 100 封邮件。年底,这个数字将直接翻番,增⾄ 200 万。
很快,Gemini 1.5 Pro 就能处理⼀⼩时时⻓的视频,或者 30000 ⾏的代码库了。它能充当“数据分析师”,从你上传的表格中“及时”发现洞察,构建⾃定义的可视化和图表。(你可以从桌⾯或 Google Drive 上传⽂件,你上传的⽂件是私有的,不会被⽤来训练模型。)
全⾯接⼊ Gemini 的“⾕歌办公全家桶”,也将在未来⼏个⽉内陆续上线“智能问答”、“智能邮件回复”、“表格图像化总结”等新功能。
推理上的进步具体表现在,改进了对模型对具体(特定)⽤例响应的控制,遵循⽤户复杂和微妙的执⾏,⽐如调整⼀个 Chat Agent 的⻆⾊⻛格,⽤多个函数调⽤⾃动化⼯作流,让⽤户通过设置系统指令,掌控模型⾏为。
Google 说,(Gemini Advanced)⽤户很快就能创建“Gems”了,这个 Gems 就是⾃定义化的 Gemini——⽆论你是想找⼀个瑜伽教练,为你制定⻝谱的营养学家,还是微积分导师(或者你有什么其他“奇怪的想法”),搞⼀个 Gems 就⾏了。
⽆处不在的私⼈助理,正经的那种
Demis Hassabis,DeepMind 的 CEO,第⼀次登上 I/O ⼤会的舞台,预示了重要信息的登场——崭新的 Google 智能助理。(如果没有 OpenAI 前⼀天的“截胡”,那就更“崭新”了)
从⻢上能让⽤户创建“Gems”的那个例⼦中,可以⻅得,为了让⼤模型“落地”,变得更智能,Google 想要 AI 助理都变得更个⼈化。“Gemini 理应是你的私⼈ AI assistant,对话式的,⽤户友好的,有帮助的。”在 Google I/O“露脸”好多年的 AI assistant,总终于有了新名号,Project Astra。
Google 会给助理赋予哪些能⼒?语⾳交互 AI 的语调和说话⻛格可调整;双⽅可⾃然对话,你也可以毫不客⽓地打断 AI 讲话。Gemini Live 功能将上线 Gemini 移动端。很快,你在 Live 对话时,也能打开摄像头,让 AI 实时观察到你的周围。
在此之前,Google 会把 Gemini 放到 Google Message 做测试,推送到部分国家,让 Gemini 好好学学各种“社交技巧和礼仪。”
规划
“我妈喜欢海,我爸⾛两步就嫌烦,出⾏最好做⾼铁,因为恐⾼。他们隔天必吃⼀顿东北菜。⼊住酒店得⼲净,离交通近,性价⽐还得⾼。”就这样让 AI ⽣成⼀份三天海南出⾏计划,你说它懵不懵?
但现在的 Google 助理,除了具备精明的⼤脑(Gemini),还有强⼒的外部⽀持(这也是 Google 相⽐其他竞争者的最⼤优势之⼀,丰富的应⽤⽣态)。Google 将 Extensions(扩展功能)带⼊ Gemini,⽤ Gemini 打通并链接更多 Google 应⽤。
这⼀来,⽤户在 Google 应⽤和服务中的信息都能被调⽤,很多时候“只⽤⼀句简单的 prompt”,这些信息就能被链接起来。这种共同协作让智能助理的规划能⼒成为可能。
记忆
在展示案例中,当使⽤者通过摄像头环顾办公室⼀周并持续提问交互之后,忽然提问“对了,我刚刚把眼镜放哪⾥?”助理准确地回答“放在⼀个苹果旁边。”⽽这个画⾯是⼤约⼀分钟前从摄像头中⼀闪⽽过的——我⽼板的助理可没有这么厉害。
搜图算什么,我能搜视频
Google 搜索的最⼤进化,被称为 AI Overviews,这个功能将“简化”⽤户提问,拥有更强⼤的多步推理能⼒——先将⼀个复杂问题,拆解成多个简单问题,再将简单问题拆解成多个关键词——反馈给⽤户的⻚⾯中,将是⾼度格式化的解释、简洁实⽤的⾏动指引、直接引导后续⾏为的链接等。
未来的搜索产品逻辑可能会被彻底颠覆,⼈们不需要⼀个单独的“搜索引擎”。未来 search 功能,也许会成为 Agent 功能的⼦集,⽐如让 Agent 做旅⾏计划,就会涉及到去 Google Maps 上搜饭店和评价。再进⼀步,想⼀下上述和 Agent 可能产⽣的各种互动,本质是都会是⼀种基于 AI 增强的搜索。
⼤会上还展示了应⽤内的搜索增强,名为 Ask Photo,⽐如在 Google Photo 中搜索“⾃⼰⼥⼉学游泳的完整经历”,反馈的⼀些照⽚排列,能让每⼀个⽼⽗亲热泪盈眶,远胜过搜图的另⼀种体验,Google 将⽀持通过视频提问的搜索,联想到修理师傅问你“到底是⽔管哪⾥漏了?”⽽你⽀⽀吾吾说不出,或是各种运动时的动作纠正,有些时候会⽐语⾔描述得更清。
模型越⼤,责任越⼤
每次聊到“AI 责任”,Google 可就精神了。⼀款名叫 SynthID 的⼯具能很好地应对如今 AI ⽣成泛滥的问题。过去⼀年中,SynthID 可以识别 AI ⽣成的图⽚和声⾳,从今开始,还可以针对 AI ⽣成的⽂字和视频进⾏鉴别。基于这款⼯具和相应技术,Google 已经开始推进和⾼校与研究院所的合作,以应对 AI ⽣成内容在严肃科研领域被滥⽤的现象。
如果你还是在校学习中,这下慌不慌?
过去这⼀年,OpenAI 被各种“炸裂”或“赢麻了”,但 Google 却在这次⼤会上说⾃⼰才“刚开始”,⽽我们,看热闹怎么会嫌事⼤?
作者:沈知涵
编辑:malt
如⽆特别标注,全⽂图⽚均来⾃⾕歌
果壳 AI 组 出品
本⽂来⾃果壳,未经授权不得转载. 如有需要请联系 sns@guokr.com