Google发布Gemini大模型：多模态AI的新里程碑

这是⼀个⽐ChatGPT有趣更多的新家伙。先来看看他们的演示（不是聊天框，⽽是实时的视频和语⾳互动）：⼀张纸、⼀条弯曲的线、看到喙和⽖⼦觉得是⻦，有了⽔波纹⽴刻就认出了鸭⼦（当然，你要⾮抬杠说是⼤鹅，也⾏……）。整个过程就像那个著名的超⼈梗“It's a Bird... It's a Plane... It's Superman”——简直和⼈分辨视觉信息的感觉⼀模⼀样。

接下来它看出了颜⾊，⽽且清楚地知道“蓝鸭⼦”这玩意可不多⻅；当画⾯中沧桑的双⼿拿出了⼀个“⼩蓝鸭”，它也认出了材质，并知道这个“蓝鸭”可以浮在⽔上——⽽这是通过挤捏的动作确认的。它⾮常清楚，这是⼀个⽴体的鸭⼦放在平⾯的世界地图上（它还知道蓝⾊是的海洋，⻩绿⾊的是⼤陆）。最有趣的是这部分：三个杯中扣纸团，猜猜是哪个？

（后⾯还有⼀个猜⼿中硬币的环节，啥都瞒不过）它可以识别⼿势，⽆论你是在猜拳，还是模仿动物。还可以识别视频中不断变换的物体，并归类说明。甚⾄可以做编织刺绣爱好者的“设计指导”。还记得这个么？⼩时候我最爱玩了，⼀下⼦被它整得没乐趣了！可以看懂⼿绘乐器和与之关联的背景（难为它了，绘得的确太糙了……），并随之变换不同⾳乐⻛格（后⾯的完整视频中，你可以听到）。还能够看懂视频中的视频。

完整演示视频在这⾥：它眼中的世界也许跟你⼀样上⾯演示的，是Google刚刚发布的Gemini（本意为双⼦座，就是上⾯演示视频最后出现的那个星座）⼤模型——这是⼀款“天⽣多模态”的AI⼤模型。官⽅称其为“Google迄今为⽌规模最⼤、能⼒最强以及最灵活的AI模型”。

你⼤概在过去⼀年⾥，伴随着各种“⼤模型”，反复听到过“多模态”这个词：简⽽⾔之，如果⼀个AI和你的交流⽅式包括⽂字、语⾳、图像等，就是“多”；只有⼀种，就是“单”。但这⾥有⼀个问题，我们在这⼀年接触到的⼤多数“多模态”，其实都是单⼀模态的不停切换：先在对话框⾥聊两句天，再来个语⾳识别转⽂字，最后整⼀张画给AI看，或者让AI整⼀张画给你看——是不是很熟悉的流程？

举个例⼦，你身边是不是有很多这样的同事：⼀下午只能做⼀件任务，剪了视频就不能做表格；做了表格就没法找客户；找了客户就没法剪视频……（除⾮是摸⻥，⼀次能摸好⼏种）这时候你⽼板通常会表扬他：倒霉孩⼦，真是⼀根筋！但如果优秀如你，也许可以并⾏同时完成两到三项⼯作——Gemini就是AI中的你。在上⾯的演示视频中就可看出，既然号称“天⽣多模态”，它展现出的其实是⼀种“跨模态”的“天赋”。

⽂字、语⾔、画⾯、声⾳……做到同时接受和表达，这就⾮常接近⼈类天然对于外部世界的理解和交互⽅式了。不光是GPT，各种“专家”这回也悬了Gemini这次公布了三种尺⼨：GeminiUltra—规模最⼤且功能最强⼤的模型，适⽤于⾼度复杂的任务；GeminiPro—适⽤于各种任务的最佳模型；GeminiNano—端侧设备上最⾼效的模型。以保障它能⾼效运⾏在从数据中⼼到移动设备的多平台上。

在这次的发布和展示中，Google公布了Gemini最具先进性的⼏个特质：遥遥领先（不信你看今天媒体的说法，都是“完爆/暴打GPT”）从⾃然图像、⾳频和视频理解到数学推理，在被⼤型语⾔模型（LLM）研究和开发中⼴泛使⽤的32项学术基准中，GeminiUltra的性能有30项都超过了⽬前最先进的⽔平。

⾸次超越⼈类（这回是真的了……）GeminiUltra的得分率为90.0%，是第⼀个在MMLU（⼤规模多任务语⾔理解）测试中超过⼈类专家的模型，MMLU综合使⽤了数学、物理、历史、法律、医学和伦理等57个科⽬，⽤于测试世界知识和解决问题的能⼒。真的认识字啦！在图像基准测试中，GeminiUltra在不使⽤对象字符识别(OCR)系统来提取图像中的⽂本进⾏下⼀步处理的情况下，表现优于以前最好的模型。

⽬前，在Bard已经可以体验Gemini的Pro版本（暂时限英语），未来⼏个⽉将扩展不同的模态，并⽀持新的语⾔和地区；⼿机端，Pixel8Pro是⾸款搭载GeminiNano的智能⼿机，它可以⽀持录⾳应⽤中的“总结”等新功能，并在Gboard中推出“智能回复”功能；未来⼏个⽉，Gemini也将出现在Google的搜索、⼴告、浏览器和智能办公助⼿当中。

⼤妈不是⼤妈，⼤爷还是⼤爷⼤概是过去⼀年OpenAI占据的太多眼球（⽆论是技术、产品，还是⼈），有趣的是，这似乎暗合了Google当年推出Transformer架构时的论⽂题⽬Attentionisallyouneed。⼀年之中，凡谈及AI，则⾔必称OpenAI和GPT，很多⼈似乎忘记了Google在AI⽅⾯雄厚的基础和持续进步。

看看这张Gemini之前Google的AI⾥程图：如今⾯对Gemini，刚刚动荡平息的OpenAI⼜将如何应对呢？是传说中的Q*还是⼈们翘⾸期盼的GPT-5？