Google发布Gemini大模型:多模态AI的新里程碑

作者: 卧⾍

来源: 果壳

发布日期: 2023-12-07 16:01:17

Google发布了名为Gemini的多模态AI大模型,该模型在多个方面超越了现有的AI技术,特别是在处理文字、语音、图像等多种信息的能力上,展现了其跨模态的“天赋”。Gemini的发布标志着AI技术的新里程碑,尤其是在自然图像、音频和视频理解以及数学推理等方面,其性能在32项学术基准测试中超越了当前最先进的水平。

这是⼀个⽐ChatGPT有趣更多的新家伙。先来看看他们的演示(不是聊天框,⽽是实时的视频和语⾳互动):⼀张纸、⼀条弯曲的线、看到喙和⽖⼦觉得是⻦,有了⽔波纹⽴刻就认出了鸭⼦(当然,你要⾮抬杠说是⼤鹅,也⾏……)。整个过程就像那个著名的超⼈梗“It's a Bird... It's a Plane... It's Superman”——简直和⼈分辨视觉信息的感觉⼀模⼀样。

接下来它看出了颜⾊,⽽且清楚地知道“蓝鸭⼦”这玩意可不多⻅;当画⾯中沧桑的双⼿拿出了⼀个“⼩蓝鸭”,它也认出了材质,并知道这个“蓝鸭”可以浮在⽔上——⽽这是通过挤捏的动作确认的。它⾮常清楚,这是⼀个⽴体的鸭⼦放在平⾯的世界地图上(它还知道蓝⾊是的海洋,⻩绿⾊的是⼤陆)。最有趣的是这部分:三个杯中扣纸团,猜猜是哪个?

(后⾯还有⼀个猜⼿中硬币的环节,啥都瞒不过)它可以识别⼿势,⽆论你是在猜拳,还是模仿动物。还可以识别视频中不断变换的物体,并归类说明。甚⾄可以做编织刺绣爱好者的“设计指导”。还记得这个么?⼩时候我最爱玩了,⼀下⼦被它整得没乐趣了!可以看懂⼿绘乐器和与之关联的背景(难为它了,绘得的确太糙了……),并随之变换不同⾳乐⻛格(后⾯的完整视频中,你可以听到)。还能够看懂视频中的视频。

完整演示视频在这⾥:它眼中的世界也许跟你⼀样上⾯演示的,是Google刚刚发布的Gemini(本意为双⼦座,就是上⾯演示视频最后出现的那个星座)⼤模型——这是⼀款“天⽣多模态”的AI⼤模型。官⽅称其为“Google迄今为⽌规模最⼤、能⼒最强以及最灵活的AI模型”。

你⼤概在过去⼀年⾥,伴随着各种“⼤模型”,反复听到过“多模态”这个词:简⽽⾔之,如果⼀个AI和你的交流⽅式包括⽂字、语⾳、图像等,就是“多”;只有⼀种,就是“单”。但这⾥有⼀个问题,我们在这⼀年接触到的⼤多数“多模态”,其实都是单⼀模态的不停切换:先在对话框⾥聊两句天,再来个语⾳识别转⽂字,最后整⼀张画给AI看,或者让AI整⼀张画给你看——是不是很熟悉的流程?

举个例⼦,你身边是不是有很多这样的同事:⼀下午只能做⼀件任务,剪了视频就不能做表格;做了表格就没法找客户;找了客户就没法剪视频……(除⾮是摸⻥,⼀次能摸好⼏种)这时候你⽼板通常会表扬他:倒霉孩⼦,真是⼀根筋!但如果优秀如你,也许可以并⾏同时完成两到三项⼯作——Gemini就是AI中的你。在上⾯的演示视频中就可看出,既然号称“天⽣多模态”,它展现出的其实是⼀种“跨模态”的“天赋”。

⽂字、语⾔、画⾯、声⾳……做到同时接受和表达,这就⾮常接近⼈类天然对于外部世界的理解和交互⽅式了。不光是GPT,各种“专家”这回也悬了Gemini这次公布了三种尺⼨:GeminiUltra—规模最⼤且功能最强⼤的模型,适⽤于⾼度复杂的任务;GeminiPro—适⽤于各种任务的最佳模型;GeminiNano—端侧设备上最⾼效的模型。以保障它能⾼效运⾏在从数据中⼼到移动设备的多平台上。

在这次的发布和展示中,Google公布了Gemini最具先进性的⼏个特质:遥遥领先(不信你看今天媒体的说法,都是“完爆/暴打GPT”)从⾃然图像、⾳频和视频理解到数学推理,在被⼤型语⾔模型(LLM)研究和开发中⼴泛使⽤的32项学术基准中,GeminiUltra的性能有30项都超过了⽬前最先进的⽔平。

⾸次超越⼈类(这回是真的了……)GeminiUltra的得分率为90.0%,是第⼀个在MMLU(⼤规模多任务语⾔理解)测试中超过⼈类专家的模型,MMLU综合使⽤了数学、物理、历史、法律、医学和伦理等57个科⽬,⽤于测试世界知识和解决问题的能⼒。真的认识字啦!在图像基准测试中,GeminiUltra在不使⽤对象字符识别(OCR)系统来提取图像中的⽂本进⾏下⼀步处理的情况下,表现优于以前最好的模型。

⽬前,在Bard已经可以体验Gemini的Pro版本(暂时限英语),未来⼏个⽉将扩展不同的模态,并⽀持新的语⾔和地区;⼿机端,Pixel8Pro是⾸款搭载GeminiNano的智能⼿机,它可以⽀持录⾳应⽤中的“总结”等新功能,并在Gboard中推出“智能回复”功能;未来⼏个⽉,Gemini也将出现在Google的搜索、⼴告、浏览器和智能办公助⼿当中。

⼤妈不是⼤妈,⼤爷还是⼤爷⼤概是过去⼀年OpenAI占据的太多眼球(⽆论是技术、产品,还是⼈),有趣的是,这似乎暗合了Google当年推出Transformer架构时的论⽂题⽬Attentionisallyouneed。⼀年之中,凡谈及AI,则⾔必称OpenAI和GPT,很多⼈似乎忘记了Google在AI⽅⾯雄厚的基础和持续进步。

看看这张Gemini之前Google的AI⾥程图:如今⾯对Gemini,刚刚动荡平息的OpenAI⼜将如何应对呢?是传说中的Q*还是⼈们翘⾸期盼的GPT-5?

UUID: 14941b81-ab44-4584-b97f-d3eb2be2c461

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2023/果壳_2023-12-07_嘿!GPT这下危险了.txt

是否为广告: 否

处理费用: 0.0063 元