大模型真实速度一览（附：测试脚本）

由于国产模型降价到不讲武德，我最近一直在做迁移测试，尝试换用国内大模型。从开发者角度，就关心仨事：好不好、贵不贵、快不快。前两个话题有太多讨论了，我就测试一下各家模型的速度，以API访问的方式进行测试，分小/中/大杯的模型。

于是就有了这个图，测试方法代码我放在了最后，可以自己跑。

任务：让各个模型，将《出师表》翻译成现代汉语。

测试prompt：将以下内容翻译成现代汉语：先帝创业未半而中道崩殂，今天下三分，益州疲弊，此诚危急存亡之秋也。然侍卫之臣不懈于内，忠志之士忘身于外者，盖追先帝之殊遇，欲报之于陛下也。诚宜开张圣听，以光先帝遗德，恢弘志士之气，不宜妄自菲薄，引喻失义，以塞忠谏之路也。宫中府中，俱为一体，陟罚臧否，不宜异同。若有作奸犯科及为忠善者，宜付有司论其刑赏，以昭陛下平明之理，不宜偏私，使内外异法也。

侍中、侍郎郭攸之、费祎、董允等，此皆良实，志虑忠纯，是以先帝简拔以遗陛下。愚以为宫中之事，事无大小，悉以咨之，然后施行，必能裨补阙漏，有所广益。将军向宠，性行淑均，晓畅军事，试用于昔日，先帝称之曰能，是以众议举宠为督。愚以为营中之事，悉以咨之，必能使行阵和睦，优劣得所。

亲贤臣，远小人，此先汉所以兴隆也；亲小人，远贤臣，此后汉所以倾颓也。先帝在时，每与臣论此事，未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军，此悉贞良死节之臣，愿陛下亲之信之，则汉室之隆，可计日而待也。

臣本布衣，躬耕于南阳，苟全性命于乱世，不求闻达于诸侯。先帝不以臣卑鄙，猥自枉屈，三顾臣于草庐之中，咨臣以当世之事，由是感激，遂许先帝以驱驰。

后值倾覆，受任于败军之际，奉命于危难之间，尔来二十有一年矣。先帝知臣谨慎，故临崩寄臣以大事也。受命以来，夙夜忧叹，恐托付不效，以伤先帝之明，故五月渡泸，深入不毛。今南方已定，兵甲已足，当奖率三军，北定中原，庶竭驽钝，攘除奸凶，兴复汉室，还于旧都。此臣所以报先帝而忠陛下之职分也。

至于斟酌损益，进尽忠言，则攸之、祎、允之任也。愿陛下托臣以讨贼兴复之效，不效，则治臣之罪，以告先帝之灵。若无兴德之言，则责攸之、祎、允等之慢，以彰其咎；陛下亦宜自谋，以咨诹善道，察纳雅言，深追先帝遗诏，臣不胜受恩感激。今当远离，临表涕零，不知所言。

目标：获取模型的文本生成速度。已知：生成速度 = 生成长度 / 生成时间；生成长度 = 在completions接口中可取；生成时间 = 总时间（接受请求的时间 - 发出的时间） - 网络延迟 - 理解上文的时间。

故，我需要做的就是每家模型调用2次：第一次，通过streaming的方式，获取各家接口首token的产生时间，这个时间近似为【网络延迟 + 理解上文的时间】；第二次，使用非streaming的方式，获取总生成时间和下文长度。通过计算，获取各家token的生成速度。

具体的话，我使用API + Colab的方式进行测试：极简Python：10分钟会用OpenAI / Kimi API。由于Colab在海外，这也是为什么我需要把【网络延迟 + 理解上文的时间】剪掉，不然影响有点大。

考虑到工作量，我暂时只对兼容OpenAI SDK的接口进行了测试（代码附在了最后），之后可能会迭代到全覆盖的测试，并开源出来（感觉自己像是戏台上的老将军，浑身插满了flag）。以下是测试切片按生成速度从高到底排序，测试于中国时间上午11点左右。

小杯：一般聪明OpenAI，还是你大爷，智谱紧随其后，其他慢了一截。来自「OpenAI」的gpt-3.5-turbo：上下文总长度：2250，用时：14.62秒。

内容：先帝创业未半，就中途意外去世，如今天下局...输入token：1070，输入解析（含网络延迟）：0.47秒，输出token：1180，生成用时：14.15秒，生成速度：83.42 token/s。

来自「智谱」的glm-4-flash：上下文总长度：1409，用时：11.35秒。

内容：先帝开创的事业还没有完成一半，却突然驾崩...输入token：689，输入解析（含网络延迟）：1.37秒，输出token：720，生成用时：9.98秒，生成速度：72.14 token/s。

来自「通义千问」的qwen-turbo：上下文总长度：1440，用时：18.17秒。

内容：先帝开创大业未竟一半，却中途去世，现在天...输入token：690，输入解析（含网络延迟）：1.12秒，输出token：750，生成用时：17.05秒，生成速度：43.99 token/s。

来自「百川」的Baichuan3-Turbo：上下文总长度：1485，用时：22.00秒。

内容：先帝开创大业还没完成一半却中途去世了，现...输入token：752，输入解析（含网络延迟）：1.84秒，输出token：733，生成用时：20.16秒，生成速度：36.36 token/s。

中杯：比较聪明智谱快的离谱，非常离谱。来自「智谱」的glm-4-airx：上下文总长度：1415，用时：9.67秒。

内容：先帝开创的事业还未完成一半就不幸去世，现...输入token：689，输入解析（含网络延迟）：1.86秒，输出token：726，生成用时：7.81秒，生成速度：92.95 token/s。

来自「OpenAI」的gpt-4o（我觉得没有4聪明）：上下文总长度：1690，用时：12.68秒。

内容：先帝创业还未完成，中途就去世了。现在天下...输入token：776，输入解析（含网络延迟）：0.51秒，输出token：914，生成用时：12.16秒，生成速度：75.14 token/s。

来自「通义千问」的qwen-plus：上下文总长度：1500，用时：48.10秒。

内容：先帝创立帝业还未完成一半，却中途去世，现...输入token：690，输入解析（含网络延迟）：1.05秒，输出token：810，生成用时：47.05秒，生成速度：17.22 token/s。

大杯：超级聪明月之暗面 & OpenAI & 智谱：不分伯仲，阶跃星辰：稍逊一筹，其他家：慢了许多。来自「月之暗面」的moonshot-v1-32k：上下文总长度：1445，用时：27.03秒。

内容：这段文字出自《出师表》，是三国时期蜀汉丞...输入token数：729，解析用时（含网络延迟）：3.37秒，输出token数：716，生成用时：23.66秒，生成速度：30.26 token/s。

来自「OpenAI」的gpt-4：上下文总长度：2409，用时：45.64秒。

内容：前朝皇帝开创事业还没完成，就在半路中逝世...输入token数：1070，解析用时（含网络延迟）：1.21秒，输出token数：1339，生成用时：44.43秒，生成速度：30.14 token/s。

来自「智谱」的glm-4：上下文总长度：1415，用时：25.98秒。

内容：以下是该段古文的现代汉语翻译：先帝开...输入token：689，输入解析（含网络延迟）：1.89秒，输出token：726，生成用时：24.09秒，生成速度：30.13 token/s。

来自「阶跃星辰」的step-1-8k：上下文总长度1590，用时：33.38秒。

内容：先帝开创的大业未完成一半却中途去世了。现...输入token数：694，解析用时（含网络延迟）：2.03秒，输出token数：896，生成用时：31.35秒，生成速度：28.58 token/s。

来自「百川」的Baichuan4：上下文总长度1413，用时：40.05秒。

内容：先帝创立的基业还没有完成一半就去世了，现...输入token数：690，解析用时（含网络延迟）：2.42秒，输出token数：723，生成用时：37.63秒，生成速度：19.21 token/s。

来自「深度求索」的deepseek-chat：上下文总长度：1691，用时：52.08秒。

内容：先帝开创大业未完成一半，却中途去世。如今...输入token数：739，解析用时（含网络延迟）：1.43秒，输出token数：952，生成用时：50.65秒，生成速度：18.80 token/s。

来自「通义千问」的qwen-max：上下文总长度：1538，用时：57.39秒。

内容：先帝开创大业未完成一半，却中途去世了，现...输入token数：690，解析用时（含网络延迟）：1.10秒，输出token数：848，生成用时：56.28秒，生成速度：15.07 token/s。

吐槽：有的朋友会说为啥没有文心一言。对此，我放几个截图，先是找不到入口，接着是付款让我犹豫，打算付款了，但按钮点不动。来自朋友的监控，本着：「与其麻烦自己，不如霍霍朋友」的原则，让朋友帮我监控了几天，他没国外API，所以监控的模型有点不一样。

如下，用GPT整理了下，高清大图纯享版：智谱的AirX模型很显眼，顺便分了个杯（有些我分不出来，就不瞎分了）。小杯低定价/十亿级别参数规模的模型，两极分化的好严重；中杯中等定价/百亿级别参数规模的模型，智谱的AirX很明显的强；大杯高定价/千亿级别参数规模的模型，月之暗面和智谱比较快，千问比较慢，豆包不太稳定。

代码测试代码如下，记得先配置API key，然后pip install openai。配置部分和逻辑部分的代码已附在内容中，供参考。