Google I/O 大会：Gemini 时代的 AI 革新

OpenAI：俩⼆；Google：四个王

原创

沈知涵

果壳

2024-05-15 10:46:45

收录于话题

#科技解读 #AI

真的来了

⼜⼀次，OpenAI 身着华服表演了⼀个惊艳全场的魔术；但⼀转眼，Google 把秘籍指南和道具打了个包，来了个全员⼤派送。

果壳来到了 Google I/O ⼤会⼁⾕歌

是的，和 24 ⼩时前那种仍然极具科幻感的炫示相⽐，今天在 Google I/O 开发者⼤会上的内容更能令每个普通⼈信服，我们早已身处这个 AI 时代之中——当然，按照 Google CEO 桑达尔·劈柴的说法，“⼀个 Gemini 的时代”。

所谓“Gemini 时代”始于⼀年前，2023 年的 I/O ⼤会上，劈柴公布了这个模型。在之后的⼀年中，Gemini 不温不⽕，也没少遭遇⼀些啼笑皆⾮的争议（有些的确很尴尬）。⼀年过去了，“搜索”变了，“⾕歌助理”变了，连万年不变的“办公全家桶”都变了。

“蒸馏”⼀个⼤模型

Google 说知道⽤户总“吵吵”别⼈家模型延迟⼩，成本低。于是这次，推出 Gemini 1.5 Flash 轻量级模型，速度更快，效率更⾼，从⽽能覆盖更多的⽤户。Google 表示，就其模型尺⼨来说，它对⼤量信息进⾏多模态处理的表现，还算不错。1.5 Flash 擅⻓总结，聊天，凝练图像和视频，从⻓⽂档和表格中提取信息。

Gemini 1.5 Flash 通过 1.5 Pro“蒸馏”得来，“知识蒸馏”是⼀种模型压缩技术，让⼩模型学习⼤模型，将重要的知识和技能迁移过来。

说到 Gemini 1.5 Pro，随着今天的 I/O ⼤会已经完全开放，覆盖 150 个国家，35 个语⾔，⽤户只要订阅了 Gemini Advanced，就能⽤上了。

Gemini 1.5 Pro（和 1.5 Flash）⽀持 100 万 tokens 理解，是⽬前⼤模型服务中所能⽀持的最⻓上下⽂输⼊。如果你不好理解，换算⼀下，⼤概是让它帮你总结 1500 ⻚⽂档，或 100 封邮件。年底，这个数字将直接翻番，增⾄ 200 万。

很快，Gemini 1.5 Pro 就能处理⼀⼩时时⻓的视频，或者 30000 ⾏的代码库了。它能充当“数据分析师”，从你上传的表格中“及时”发现洞察，构建⾃定义的可视化和图表。（你可以从桌⾯或 Google Drive 上传⽂件，你上传的⽂件是私有的，不会被⽤来训练模型。）

全⾯接⼊ Gemini 的“⾕歌办公全家桶”，也将在未来⼏个⽉内陆续上线“智能问答”、“智能邮件回复”、“表格图像化总结”等新功能。

推理上的进步具体表现在，改进了对模型对具体（特定）⽤例响应的控制，遵循⽤户复杂和微妙的执⾏，⽐如调整⼀个 Chat Agent 的⻆⾊⻛格，⽤多个函数调⽤⾃动化⼯作流，让⽤户通过设置系统指令，掌控模型⾏为。

Google 说，（Gemini Advanced）⽤户很快就能创建“Gems”了，这个 Gems 就是⾃定义化的 Gemini——⽆论你是想找⼀个瑜伽教练，为你制定⻝谱的营养学家，还是微积分导师（或者你有什么其他“奇怪的想法”），搞⼀个 Gems 就⾏了。

⽆处不在的私⼈助理，正经的那种

Demis Hassabis，DeepMind 的 CEO，第⼀次登上 I/O ⼤会的舞台，预示了重要信息的登场——崭新的 Google 智能助理。（如果没有 OpenAI 前⼀天的“截胡”，那就更“崭新”了）

从⻢上能让⽤户创建“Gems”的那个例⼦中，可以⻅得，为了让⼤模型“落地”，变得更智能，Google 想要 AI 助理都变得更个⼈化。“Gemini 理应是你的私⼈ AI assistant，对话式的，⽤户友好的，有帮助的。”在 Google I/O“露脸”好多年的 AI assistant，总终于有了新名号，Project Astra。

Google 会给助理赋予哪些能⼒？语⾳交互 AI 的语调和说话⻛格可调整；双⽅可⾃然对话，你也可以毫不客⽓地打断 AI 讲话。Gemini Live 功能将上线 Gemini 移动端。很快，你在 Live 对话时，也能打开摄像头，让 AI 实时观察到你的周围。

在此之前，Google 会把 Gemini 放到 Google Message 做测试，推送到部分国家，让 Gemini 好好学学各种“社交技巧和礼仪。”

规划

“我妈喜欢海，我爸⾛两步就嫌烦，出⾏最好做⾼铁，因为恐⾼。他们隔天必吃⼀顿东北菜。⼊住酒店得⼲净，离交通近，性价⽐还得⾼。”就这样让 AI ⽣成⼀份三天海南出⾏计划，你说它懵不懵？

但现在的 Google 助理，除了具备精明的⼤脑（Gemini），还有强⼒的外部⽀持（这也是 Google 相⽐其他竞争者的最⼤优势之⼀，丰富的应⽤⽣态）。Google 将 Extensions（扩展功能）带⼊ Gemini，⽤ Gemini 打通并链接更多 Google 应⽤。

这⼀来，⽤户在 Google 应⽤和服务中的信息都能被调⽤，很多时候“只⽤⼀句简单的 prompt”，这些信息就能被链接起来。这种共同协作让智能助理的规划能⼒成为可能。

记忆

在展示案例中，当使⽤者通过摄像头环顾办公室⼀周并持续提问交互之后，忽然提问“对了，我刚刚把眼镜放哪⾥？”助理准确地回答“放在⼀个苹果旁边。”⽽这个画⾯是⼤约⼀分钟前从摄像头中⼀闪⽽过的——我⽼板的助理可没有这么厉害。

搜图算什么，我能搜视频

Google 搜索的最⼤进化，被称为 AI Overviews，这个功能将“简化”⽤户提问，拥有更强⼤的多步推理能⼒——先将⼀个复杂问题，拆解成多个简单问题，再将简单问题拆解成多个关键词——反馈给⽤户的⻚⾯中，将是⾼度格式化的解释、简洁实⽤的⾏动指引、直接引导后续⾏为的链接等。

未来的搜索产品逻辑可能会被彻底颠覆，⼈们不需要⼀个单独的“搜索引擎”。未来 search 功能，也许会成为 Agent 功能的⼦集，⽐如让 Agent 做旅⾏计划，就会涉及到去 Google Maps 上搜饭店和评价。再进⼀步，想⼀下上述和 Agent 可能产⽣的各种互动，本质是都会是⼀种基于 AI 增强的搜索。

⼤会上还展示了应⽤内的搜索增强，名为 Ask Photo，⽐如在 Google Photo 中搜索“⾃⼰⼥⼉学游泳的完整经历”，反馈的⼀些照⽚排列，能让每⼀个⽼⽗亲热泪盈眶，远胜过搜图的另⼀种体验，Google 将⽀持通过视频提问的搜索，联想到修理师傅问你“到底是⽔管哪⾥漏了？”⽽你⽀⽀吾吾说不出，或是各种运动时的动作纠正，有些时候会⽐语⾔描述得更清。

模型越⼤，责任越⼤

每次聊到“AI 责任”，Google 可就精神了。⼀款名叫 SynthID 的⼯具能很好地应对如今 AI ⽣成泛滥的问题。过去⼀年中，SynthID 可以识别 AI ⽣成的图⽚和声⾳，从今开始，还可以针对 AI ⽣成的⽂字和视频进⾏鉴别。基于这款⼯具和相应技术，Google 已经开始推进和⾼校与研究院所的合作，以应对 AI ⽣成内容在严肃科研领域被滥⽤的现象。

如果你还是在校学习中，这下慌不慌？

过去这⼀年，OpenAI 被各种“炸裂”或“赢麻了”，但 Google 却在这次⼤会上说⾃⼰才“刚开始”，⽽我们，看热闹怎么会嫌事⼤？

作者：沈知涵

编辑：malt

如⽆特别标注，全⽂图⽚均来⾃⾕歌

果壳 AI 组出品

本⽂来⾃果壳，未经授权不得转载. 如有需要请联系 sns@guokr.com