过去⼀年,我为 AI 花不少钱了,这时代的弄潮⼉可不好当。为了学做插图,我⼀个⽉交给 Midjourney 10 美⾦;后来,ChatGPT Plus 我也订阅了,⼀个⽉ 20 美⾦,随便聊,⾼峰期不⽤等;再之后是 Perplexity,更贵。嗯,⽼板的期望嘛……
Google 推出计划,⽤户可以每⽉花 19.99 美⾦订阅 Google One AI Premium,使⽤⽀持 Gemini 的 Gmail、Docs,Sheets,Slides 和 Meet——也就是说,你可以在⾕歌办公全家桶中畅享 Gemini 的 AI 功能了。专为打⼯⼈准备的 20 美⾦套餐……
同是 20 美⾦,服务各有千秋。
如果你买了 ChatGPT Plus,能⽤上 GPT-4,DALL-E 3,当然最让⼈兴奋的是,OpenAI 创建的类似 App Store 的⽣态,⽤别⼈做的“教学机器⼈”教⼩孩数学,再给⾃⼰做⼀个“读书指南”(这世界都清净了不少)。当然也可以借助 Zapier,在 ChatGPT 内将应⽤连接起来,⽐如⽇历—短信(把⽇程安排通知给同事)。
但是,如果你更习惯传统办公软件的⼯作流程,想必也疲于了在 ChatGPT ⽹⻚和⽂档间来回切换。AI 再“务实”⼀点呢?以学习成本最低的⽅式,进⼊普通⼈如你我的⼯作和⽣活。Google 的思路如此:刚刚发布 Gemini Advanced,能在 Docs 中⽣成⽂本和总结⽂档;在 Sheets ⾥分析数据并⽣成图表;在 Gmail 上帮你撰写拿捏不准的词句表达等等。
“全家桶”是⼀种得天独厚的场景优势……
Google 使⽤ Gemini Advanced 的前提是订阅 Google One AI Premium,Google One 是⾕歌提供的在线云存储服务,供其“全家桶”(Google Workspace)使⽤。所以,AI Premium 的 20 美元中还包含了 2TB 的存储空间。⼀个 20 美元不算贵,但是积少成多啊……
除了 Google 和 OpenAI 这两家,另⼀个“20 美元套餐”的选择是微软。也是不久前,微软也推出个⼈版 Copilot Pro,同样每⽉ 20 美⾦订阅费,就可以使⽤受到 Copilot AI 能⼒加持的 Word、Excel、PowerPoint 等。如果武装不了⾃⼰,⾄少先武装⼿机……
两个⽉前,⾕歌发布了 Gemini,多模态 AI 模型。
所谓“多模态”,意指对⽂字、语⾳、画⾯等各种信息形式,同时做到接受,理解,表达。接近⼈类天然对于外界的理解和交互⽅式。
Google 之前类 ChatGPT 的 AI 产品叫 Bard,现在统称为 Gemini(就是产品名和模型名⽤⼀个了,域名也从 bard.google.com 更改为 gemini.google.com),除了⽹⻚端,还将推出安卓版的 Gemini App,iOS ⽤户能在 Google app 中体验到。
⽬前⽹⻚端 Bard(很快就都叫 Gemini 了)采⽤的是 Gemini Pro 模型,⽀持 40 多种语⾔对话,包括中⽂;⽀持⽂⽣图(只⽀持英⽂)。以后,都叫 Gemini 了……
Google 展示中,⽤⼿机拍下⼀张照⽚,问 Gemini 照⽚⾥有什么,它会给你讲,“带刺的仙⼈掌增添了⼀丝沙漠的⽓息;简单形状和⾃然纹理搭配出⼀种平静的和谐等等”。(早有这东⻄,我⼩学看图写作⽂,也不⾄于总不及格。)⼿机端的 AI 应⽤是更多⼈期待的……
之前 Google 公布对 Gemini 的测试结果时,Gemini Ultra 吊⾜了胃⼝:Gemini Ultra 在⼤型语⾔模型研发被⼴泛使⽤的 32 个学术基准测试集中,在其中 30 个测试集的性能超过当前 SOTA(最好/最先进)结果。
Gemini Ultra 在 MMLU(⼤规模多任务语⾔理解数据集)中的得分率⾼达 90.0%,⾸次超过了⼈类专家,MMLU 综合使⽤了数学、物理、历史、法律、医学和伦理等 57 个科⽬,⽤于测试世界知识和解决问题的能⼒。在图像基准测试中,Gemini Ultra ⽆需对象字符识别(OCR)的辅助,表现优于以前最好的模型。
基于这些成绩,“Gemini Advanced 将提供⼀种在推理,遵循指令,编程,和创造性协作⽅⾯表现更好的全新体验。”从模型层⾯来说,增强推理能⼒和多模态能⼒是⾏业基本的共识。Gemini Ultra 终于来了,留给 GPT5 的时间不多了……