用过GPT-4 Turbo以后，我们再也回不去了

前天，全球科技圈都把目光聚焦在了美国旧金山。短短45分钟时间里，OpenAI CEO山姆·奥特曼向我们介绍了迄今为止最强的AI大模型，和基于它的一系列应用，一切似乎就像当初ChatGPT一样令人震撼。OpenAI在本周一的首个开发者日上推出了GPT-4 Turbo，新的AI大模型更聪明，文本处理上限更高，价格也更便宜，应用商店也开了起来。现在，用户还可以根据需求构建自己的GPT。

根据官方说法，这一波GPT的升级包括：更长的上下文长度：128k，相当于300页文本；更高的智能程度，更好的JSON/函数调用；更高的速度：每分钟两倍token；知识更新：目前的截止日期为2023年4月；定制化：GPT3 16k、GPT4微调、定制模型服务；多模态：Dall-E 3、GPT4-V和TTS模型现已在API中；Whisper V3开源（即将推出API）；与开发者分享收益的Agent商店。

GPT4 Turbo的价格约是GPT4的1/3。发布会一开完，人们蜂拥而入开始尝试。GPT4 Turbo的体验果然不同凡响。

首先是快，快到和以前所有大模型拉开了代差：然后是功能增多，画画的时候，你一有灵感就可以直接说话让AI负责实现：设计个UI，几个小时的工作变成几分钟：我直接不装了，截个图复制粘贴别人的网站，生成自己的，只用40秒：利用ChatGPT与Bing的浏览功能以及与DALL-E 3图像生成器的集成，沃顿商学院教授Ethan Mollick分享了一段视频，展示了他名为「趋势分析器」的GPT工具，其可查找市场特定细分市场的趋势，然后创建新产品的原型图像。

Octane AI首席执行官Matt Schlicht的Simponize Me GPT会自动应用提示来转换用户上传的个人资料照片，生成《辛普森一家》的风格，做这个小应用只用了不到十分钟。GPT-4 Turbo具有创纪录的准确率，在PyLLM基准上，GPT-4 Turbo的准确率是87%，而GPT-4的准确率是52%，这是在速度几乎快了四倍多的情况下（每秒48 token）实现的。

至此，生成式AI的竞争似乎进入了新的阶段。很多人认为，当竞争对手们依然在追求更快、能力更强的大模型时，OpenAI其实早就已经把所有方向都试过了一遍，这一波更新会让一大批创业公司作古。也有人说，既然Agent是大模型重要的方向，OpenAI也开出了Agent应用商店，接下来在智能体领域，我们会有很多机会。竞争者们真的无路可走了吗？价格降低，速度变快以后，大模型的性能还能同时变得更好？

这必须要看实践，在OpenAI的博客中，其实说法是这样的：在某些格式的输出下，GPT-4 Turbo会比GPT-4结果更好。那么总体情况会如何？在新模型发布的24小时内，就有研究者在Aider上进行了AI生成代码的能力测试。

在gpt-4-1106-preview模型上，仅使用diff编辑方法对GPT-4模型进行基准测试得出的结论是：新的gpt-4-1106-preview模型似乎比早期的GPT-4模型快得多；第一次尝试时似乎更能生成正确的代码，能正确完成大约57%的练习，以前的模型在第一次尝试时只能正确完成46-47%的练习；在通过检查测试套件错误输出获得第二次纠正错误的机会后，新模型的表现(~66%)似乎与旧模型(63-64%)相似。

接下来是使用whole和diff编辑格式对GPT-3.5模型进行的基准测试。结果表明，似乎没有一个gpt-3.5模型能够有效地使用diff编辑格式，包括最新的11月出现的新模型（简称1106）。下面是一些whole编辑格式结果：新的gpt-3.5-turbo-1106型号完成基准测试的速度比早期的GPT-3.5型号快3-4倍；首次尝试后的成功率为42%，与之前的6月(0613)型号相当。

1106模型和0613模型都比原来的0301第一次尝试的结果更差，为50%；新模型在第二次尝试后的成功率为56%，似乎与3月的模型相当，但比6月的模型要好一些，6月的模型为50%得分。这项测试是如何进行的呢，具体而言，研究者让Aider尝试完成133个Exercism Python编码练习。

对于每个练习，Exercism都提供了一个起始Python文件，文件包含所要解决问题的自然语言描述以及用于评估编码器是否正确解决问题的测试套件。基准测试分为两步：1. 第一次尝试时，Aider向GPT提供要编辑的桩代码文件以及描述问题的自然语言指令。这些指令反映了用户如何使用Aider进行编码。用户将源代码文件添加到聊天中并请求更改，这些更改会被自动应用。

2. 如果测试套件在第一次尝试后失败，Aider会将测试错误输出提供给GPT，并要求其修复代码。Aider的这种交互式方式非常便捷，用户使用/run pytest之类的命令来运行pytest并在与GPT的聊天中共享结果。然后就有了上述结果。至于Aider，对于那些不了解的小伙伴，接下来我们简单介绍一下。

Aider是一个命令行工具，可以让用户将程序与GPT-3.5/GPT-4配对，以编辑本地git存储库中存储的代码。用户既可以启动新项目，也可以使用现有存储库。Aider能够确保GPT中编辑的内容通过合理的提交消息提交到git。Aider的独特之处在于它可以很好地与现有的更大的代码库配合使用。

简单总结就是，借助该工具，用户可以使用OpenAI的GPT编写和编辑代码，轻松地进行git commit、diff和撤销GPT提出的更改，而无需复制/粘贴，它还具有帮助GPT-4理解和修改更大代码库的功能。为了达到上述功能，Aider需要能够准确地识别GPT何时想要编辑用户源代码，还需要确定GPT想要修改哪些文件并对GPT做出的修改进行准确的应用。

然而，做好这项「代码编辑」任务并不简单，需要功能较强的LLM、准确的提示以及与LLM交互的良好工具。操作过程中，当有修改发生时，Aider会依靠代码编辑基准（code editing benchmark）来定量评估修改后的性能。例如，当用户更改Aider的提示或驱动LLM对话的后端时，可以通过运行基准测试以确定这些更改产生多少改进。

此外还有人使用GPT-4 Turbo简单和其他模型对比了一下美国高考SAT的成绩：同样，看起来聪明的程度并没有拉开代差，甚至还有点退步。不过必须要指出的是，实验的样本数量很小。综上所述，GPT-4 Turbo的这一波更新更重要的是完善了功能，增加了速度，准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致：重视优化，面向应用。业务落地速度慢的公司要小心了。

另一方面，从这次开发者日的发布内容来看，OpenAI也从一个极度追求前沿技术的创业公司，变得开始关注起用户体验和生态构建，更像大型科技公司了。再次颠覆AI领域的GPT-5，我们还得再等一等。