大模型真实速度一览(附:测试脚本)

作者: 金色传说大聪明

来源: 学术头条

发布日期: 2024-07-13 08:24:45

本文测试了多家国内外大模型的文本生成速度,使用《出师表》作为翻译任务,通过API访问的方式进行速度测试,并提供了详细的测试结果和代码示例。

由于国产模型降价到不讲武德,我最近一直在做迁移测试,尝试换用国内大模型。从开发者角度,就关心仨事:好不好、贵不贵、快不快。前两个话题有太多讨论了,我就测试一下各家模型的速度,以API访问的方式进行测试,分小/中/大杯的模型。

于是就有了这个图,测试方法代码我放在了最后,可以自己跑。

任务:让各个模型,将《出师表》翻译成现代汉语。

测试prompt:将以下内容翻译成现代汉语:先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。

侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。

亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。

臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰。

后值倾覆,受任于败军之际,奉命于危难之间,尔来二十有一年矣。先帝知臣谨慎,故临崩寄臣以大事也。受命以来,夙夜忧叹,恐托付不效,以伤先帝之明,故五月渡泸,深入不毛。今南方已定,兵甲已足,当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。此臣所以报先帝而忠陛下之职分也。

至于斟酌损益,进尽忠言,则攸之、祎、允之任也。愿陛下托臣以讨贼兴复之效,不效,则治臣之罪,以告先帝之灵。若无兴德之言,则责攸之、祎、允等之慢,以彰其咎;陛下亦宜自谋,以咨诹善道,察纳雅言,深追先帝遗诏,臣不胜受恩感激。今当远离,临表涕零,不知所言。

目标:获取模型的文本生成速度。已知:生成速度 = 生成长度 / 生成时间;生成长度 = 在completions接口中可取;生成时间 = 总时间(接受请求的时间 - 发出的时间) - 网络延迟 - 理解上文的时间。

故,我需要做的就是每家模型调用2次:第一次,通过streaming的方式,获取各家接口首token的产生时间,这个时间近似为【网络延迟 + 理解上文的时间】;第二次,使用非streaming的方式,获取总生成时间和下文长度。通过计算,获取各家token的生成速度。

具体的话,我使用API + Colab的方式进行测试:极简Python:10分钟会用OpenAI / Kimi API。由于Colab在海外,这也是为什么我需要把【网络延迟 + 理解上文的时间】剪掉,不然影响有点大。

考虑到工作量,我暂时只对兼容OpenAI SDK的接口进行了测试(代码附在了最后),之后可能会迭代到全覆盖的测试,并开源出来(感觉自己像是戏台上的老将军,浑身插满了flag)。以下是测试切片按生成速度从高到底排序,测试于中国时间上午11点左右。

小杯:一般聪明OpenAI,还是你大爷,智谱紧随其后,其他慢了一截。来自「OpenAI」的gpt-3.5-turbo:上下文总长度:2250,用时:14.62秒。

内容:先帝创业未半,就中途意外去世,如今天下局...输入token:1070,输入解析(含网络延迟):0.47秒,输出token:1180,生成用时:14.15秒,生成速度:83.42 token/s。

来自「智谱」的glm-4-flash:上下文总长度:1409,用时:11.35秒。

内容:先帝开创的事业还没有完成一半,却突然驾崩...输入token:689,输入解析(含网络延迟):1.37秒,输出token:720,生成用时:9.98秒,生成速度:72.14 token/s。

来自「通义千问」的qwen-turbo:上下文总长度:1440,用时:18.17秒。

内容:先帝开创大业未竟一半,却中途去世,现在天...输入token:690,输入解析(含网络延迟):1.12秒,输出token:750,生成用时:17.05秒,生成速度:43.99 token/s。

来自「百川」的Baichuan3-Turbo:上下文总长度:1485,用时:22.00秒。

内容:先帝开创大业还没完成一半却中途去世了,现...输入token:752,输入解析(含网络延迟):1.84秒,输出token:733,生成用时:20.16秒,生成速度:36.36 token/s。

中杯:比较聪明智谱快的离谱,非常离谱。来自「智谱」的glm-4-airx:上下文总长度:1415,用时:9.67秒。

内容:先帝开创的事业还未完成一半就不幸去世,现...输入token:689,输入解析(含网络延迟):1.86秒,输出token:726,生成用时:7.81秒,生成速度:92.95 token/s。

来自「OpenAI」的gpt-4o(我觉得没有4聪明):上下文总长度:1690,用时:12.68秒。

内容:先帝创业还未完成,中途就去世了。现在天下...输入token:776,输入解析(含网络延迟):0.51秒,输出token:914,生成用时:12.16秒,生成速度:75.14 token/s。

来自「通义千问」的qwen-plus:上下文总长度:1500,用时:48.10秒。

内容:先帝创立帝业还未完成一半,却中途去世,现...输入token:690,输入解析(含网络延迟):1.05秒,输出token:810,生成用时:47.05秒,生成速度:17.22 token/s。

大杯:超级聪明月之暗面 & OpenAI & 智谱:不分伯仲,阶跃星辰:稍逊一筹,其他家:慢了许多。来自「月之暗面」的moonshot-v1-32k:上下文总长度:1445,用时:27.03秒。

内容:这段文字出自《出师表》,是三国时期蜀汉丞...输入token数:729,解析用时(含网络延迟):3.37秒,输出token数:716,生成用时:23.66秒,生成速度:30.26 token/s。

来自「OpenAI」的gpt-4:上下文总长度:2409,用时:45.64秒。

内容:前朝皇帝开创事业还没完成,就在半路中逝世...输入token数:1070,解析用时(含网络延迟):1.21秒,输出token数:1339,生成用时:44.43秒,生成速度:30.14 token/s。

来自「智谱」的glm-4:上下文总长度:1415,用时:25.98秒。

内容:以下是该段古文的现代汉语翻译:先帝开...输入token:689,输入解析(含网络延迟):1.89秒,输出token:726,生成用时:24.09秒,生成速度:30.13 token/s。

来自「阶跃星辰」的step-1-8k:上下文总长度1590,用时:33.38秒。

内容:先帝开创的大业未完成一半却中途去世了。现...输入token数:694,解析用时(含网络延迟):2.03秒,输出token数:896,生成用时:31.35秒,生成速度:28.58 token/s。

来自「百川」的Baichuan4:上下文总长度1413,用时:40.05秒。

内容:先帝创立的基业还没有完成一半就去世了,现...输入token数:690,解析用时(含网络延迟):2.42秒,输出token数:723,生成用时:37.63秒,生成速度:19.21 token/s。

来自「深度求索」的deepseek-chat:上下文总长度:1691,用时:52.08秒。

内容:先帝开创大业未完成一半,却中途去世。如今...输入token数:739,解析用时(含网络延迟):1.43秒,输出token数:952,生成用时:50.65秒,生成速度:18.80 token/s。

来自「通义千问」的qwen-max:上下文总长度:1538,用时:57.39秒。

内容:先帝开创大业未完成一半,却中途去世了,现...输入token数:690,解析用时(含网络延迟):1.10秒,输出token数:848,生成用时:56.28秒,生成速度:15.07 token/s。

吐槽:有的朋友会说为啥没有文心一言。对此,我放几个截图,先是找不到入口,接着是付款让我犹豫,打算付款了,但按钮点不动。来自朋友的监控,本着:「与其麻烦自己,不如霍霍朋友」的原则,让朋友帮我监控了几天,他没国外API,所以监控的模型有点不一样。

如下,用GPT整理了下,高清大图纯享版:智谱的AirX模型很显眼,顺便分了个杯(有些我分不出来,就不瞎分了)。小杯低定价/十亿级别参数规模的模型,两极分化的好严重;中杯中等定价/百亿级别参数规模的模型,智谱的AirX很明显的强;大杯高定价/千亿级别参数规模的模型,月之暗面和智谱比较快,千问比较慢,豆包不太稳定。

代码测试代码如下,记得先配置API key,然后pip install openai。配置部分和逻辑部分的代码已附在内容中,供参考。

UUID: 4e66fd82-9b82-4863-b2fa-8c2cd49110d3

原始文件名: /home/andie/dev/tudou/annot/微推助手/学术头条/学术头条_2024-07-13「转」_大模型真实速度一览(附:测试脚本).html

是否为广告: 否

处理费用: 0.0200 元