谷歌反击ChatGPT，新大模型能超GPT-4，Bard全面升级

谷歌反击ChatGPT，新大模型能超GPT-4，Bard全面升级。连今年的安卓14上都有生成式AI，还不止一种。一年一度的谷歌I/O总是吸引着全球开发者的眼球，今年AI技术有重大突破，大家的关注度更高了。当地时间5月10日上午，加州山景城的海岸圆形剧场座无虚席，今年的大会正式开幕。

「AI正在度过忙碌的一年，而谷歌作为人工智能优先公司的旅程已经七年了，我们正处于一个转折点，」谷歌首席执行官桑达尔?皮查伊（Sundar Pichai）说道。「通过生成式AI技术，我们正在迈出下一步。」

在ChatGPT推出之后，人们都很关心谷歌的「反击策略」。在今天凌晨长达两个小时的演讲中，谷歌从算法、软件讲到硬件，又通篇都在讲人工智能，最新的模型技术，已经应用在了谷歌产品体系的方方面面。

PaLM二代模型支持多语言、更强的数学、代码能力。首先，谷歌给出了自己对标GPT-4的大模型PaLM 2。要说这一波AI技术突破的源头，或许可以追溯到2017年谷歌提出的transformer架构，它已成为绝大多数现代大语言模型的基石。在过去的几年里，谷歌除了在大模型上不断进步之外，也采用了许多创造性的新技术来构建功能更强大、用途更广的模型。这些技术是新一代语言模型PaLM 2的核心。

PaLM基于谷歌Pathways架构，其第一个版本的模型于2022年4月发布。谷歌I/O大会上，皮查伊宣布推出PaLM 2预览版本，改进了数学、代码、推理、多语言翻译和自然语言生成能力，利用谷歌最新的TPU算力基础设施提升了训练速度。由于它的构建方式是将计算、优化扩展、改进的数据集混合以及模型架构改进结合在一起，因此服务效率更高，同时整体表现更好。

会上，谷歌并没有给出有关PaLM 2的具体技术细节，只说明了它是构建在谷歌最新JAX和TPU v4之上。PaLM 2模型提供了不同尺寸规模的四个版本，从大到小依次为Gecko、Otter、Bison和Unicorn，更易于针对各种用例进行部署。其中轻量级的Gecko模型可以在移动设备上运行，速度非常快，不联网也能在设备上运行出色的交互式应用程序。

皮查伊表示，PaLM 2模型在常识推理、数学和逻辑领域表现更好。为此，谷歌在大量包含数学表达式的科学论文和网页上进行了训练，可以轻松解决数学难题、推理文本甚至可以输出图表。从基准测试上可以看到，对于具有思维链prompt或自洽性的MATH、GSM8K和MGSM基准评估，PaLM 2的部分结果超越了GPT-4。

PaLM 2是在具有100+语言的语料库上进行训练的，因此它更擅长多语言任务，能够理解、生成和翻译比以往模型更细致多样化的文本（包括习语、诗歌和谜语等）。PaLM 2通过了「精通」（mastery）级别的高级语言能力考试。

与此同时，PaLM 2改进了对代码编写和调试的支持，在20种编程语言上进行了训练，包括Python和JavaScript等流行语言以及Prolog、Verilog和Fortran等其他更专业的语言。PaLM 2构成了Codey的基础，它是谷歌用于编码和调试的专用模型，作为代码补全和生成服务的一部分推出。

皮查伊现场演示了PaLM 2的代码调试功能，输入指令「你能修复这段代码的一个bug，并添加一行一行的韩文注释吗？」，结果如下动图所示。谷歌内部已经有超过70个产品团队正在使用PaLM 2构建产品，包括分别针对安全知识和医疗知识微调而成的Sec-PaLM和Med-PaLM 2。

其中Sec-PaLM是专注于安全用例的版本，使用AI帮助分析和解释具有潜在恶意脚本的行为，并检测哪些脚本对个人或组织构成威胁。Med-PaLM 2可以检索医学知识、回答问题、生成有用的模板和解码医学术语，甚至还可以从图像中合成患者信息，例如胸部X光检查或乳房X光检查。值得强调的是，Med-PaLM 2是首个达到专家水平的大语言模型。

目前，开发者可以通过谷歌的PaLM API、Firebase以及Colab访问PaLM 2。皮查伊还表示，PaLM 2将继续为谷歌最新的Bard提供支持。

多模态版Bard能用Adobe Firefly画图。皮查伊表示，现在的谷歌Bard已经完全运行在了新一代模型PaLM 2上。在I/O大会上，ChatGPT和新必应的竞争对手Bard经历了大幅更新，包括图像功能、编码功能和应用程序集成。

Bard将在回复和你给更复杂提示后给出更加直观的内容。你可以问它诸如「新奥尔良有哪些必看景点？」之类的问题，除了文本之外，你可以获得更有意义的回复，以及丰富的视觉内容。和GPT-4一样，你还可以在自己的要求中附加图像和文本。比如像这样，为这张照片想一个有趣的标题：Bard作为生产力工具和搜索引擎之间的工具，最新版的改进有关易用性。

首先是加入了引用，现在AI生成的回答将通过展示特定代码块的来源（也是链接）来确保代码引用更加准确，这也适用于从网络上引用叙述性内容。其次是导出按钮。如果AI生成的内容接近于实用化，我们肯定会希望能够更快捷地使用这些结果。现在，人们能把内容快速导出到Colab和Replit上，进一步构建和迭代自己的想法。

当然文字也是可以的，如果你让Bard写邮件，那么它也可以一键直接用Gmail发送，或新建一个Docs文件。

未来，谷歌还计划集成的应用还包括Sheets、Slides、Calendar、Keep、Tasks、Maps、Photos、Messages、Flights、YouTube、YT Music、Google Images、Imagen、OpenTable、Replit，以及Adobe的Firefly。

下一代安卓AI可以帮你回短信。I/O大会上，谷歌还展示了下一代移动操作系统Android 14的新能力。Magic Compose将于今年夏天在谷歌的默认短信应用Message中推出测试版，它是一种基于AI生成模型的工具，让你在回短信的时候根据聊天内容获得大量提示。它会学习你的说话方式，你也可以让自己的回复内容看起来有不同的语气，或者用莎士比亚的风格来写。

随着新模型PaLM 2的引入，全系列工具的AI化升级，谷歌在大语言模型的应用上可谓来到了和微软同一个身位，甚至还再次领先了。在I/O大会进行的同时，谷歌的股价也大涨了5%。但现在真的可以说Bard能和ChatGPT媲美了吗？等我们用上了新版本，或许就有答案了。