2024年全国⾼考的“硝烟”刚刚散去,“⼤模型考⽣”就被抓回来重新“做题”了。市⾯上涌现出的⼤模型产品让⼈眼花缭乱,围绕“⼤模型技术哪家强”的讨论不绝于⽿,各⾊名⽬的⼤模型评测应运⽽⽣。作为国内最权威的考试之⼀,⾼考覆盖各类学科及题型,同时在开考前这些题属于“绝密”,⾮常适合⽤来作为考查⼤模型智能⽔平的评测⼯具,堪称⼤模型综合能⼒的“试⾦⽯”。
连⽇来,⼀些专业机构纷纷下场,使⽤市⾯上常⻅的⼤模型产品如通义千问、字节⾖包、讯⻜星⽕、⽂⼼⼀⾔、腾讯元宝、⽉之暗⾯Kimi等作为“考⽣”,围绕“⼤模型⾼考测试”得出了⼀系列结果,为⼈们更好地了解⼤模型产品的性能和特点提供了参考样本。
AI⾼考数学全不及格?换个打开⽅式试试。近期,⼀则“AI⾼考测试出分,数学全不及格”的消息登上“热搜”。消息出⾃上海⼈⼯智能实验室旗下司南评测体系OpenCompass对7个开源⼤模型进⾏的⾼考语、数、外全卷能⼒测试。据OpenCompass于6⽉19⽇发布的评测结果,⼤模型的语⽂、英语考试⽔平还不错,但数学都不及格,最⾼分只有75分(满分150分)。
参加OpenCompass此次⾼考测试的⼤模型,分别是来⾃阿⾥巴巴、零⼀万物、智谱AI、上海⼈⼯智能实验室、法国Mistral的开源模型。OpenCompass称,因⽆法确定闭源模型的更新时间,此次评测没有纳⼊商⽤闭源模型,仅引⼊GPT-4o作为评测参考。对于数学测试全部不及格,OpenCompass表示,“⼤模型在数学⽅⾯还有很⼤的提升空间”。
不过,复旦⼤学⾃然语⾔处理(NLP)实验室LLMEVAL团队主持的⾼考数学评测显示,⼤模型数学成绩不佳的结果,可能缘于“打开⽅式不对”。⾸先,LLMEVAL团队选取了2024年⾼考新I卷、新II卷数学试卷的客观题(单选、多选和填空题,共73分)来评测,得出了不同的结论。使⽤客观题测试⼤模型的好处是,对就是对、错就是错,结果⼀⽬了然。
同时主观题由于解题⽅法、思路存在差异,具有⼀定的主观性,如果结果不正确,就很难客观地评出步骤分。
其次,此次⼤模型“考⽣”增加到12个:阿⾥巴巴Qwen2-72b、讯⻜星⽕、GPT-4o、字节⾖包、智谱GLM4-0520、百川智能Baichuan4、⾕歌Gemini-1.5-Pro、⽂⼼⼀⾔4.0、MiniMax海螺、腾讯元宝、⽉之暗⾯Kimi、DeepSeek-V2-Chat。
另外,他们在评测中发现,数学问题不同格式的提示输⼊(Prompt)对⼤模型性能影响很⼤。在最初的评测中,LLMEVAL团队对数学题⽬中的公式部分采⽤了通过光学字符识别(OCR)后输出的格式(转义符格式),最新⼀次评测则使⽤了Latex格式进⾏了横向对⽐评测。
结果显示,⼤多数模型的两次测试结果均出现较⼤差异,不过使⽤Latex格式后,⼤模型整体表现更佳:2024年全国⾼考新I卷、新II卷数学测试中,得分率超过50%的⼤模型产品数量由此前的5个和6个升⾄7个和9个。考虑到Latex格式更符合⼈类实际使⽤⼤模型时所采⽤的格式,LLMEVAL团队建议后续测试主要基于此格式。
具体⽽⾔,LLMEVAL团队使⽤Latex格式Prompt的测试结果显示,在2024年全国⾼考新I卷数学测试中,阿⾥巴巴Qwen2-72b、讯⻜星⽕的得分率均超过及格线(60%),分别为78.08%和71.23%;在2024年全国⾼考新II卷数学测试中,讯⻜星⽕、阿⾥巴巴Qwen2-72b和GPT-4o的得分率也超出了及格线,分别为65.07%、63.70%、62.33%。
由此可⻅,⼤模型在数学⽅⾯并⾮“热搜”所说那样完全不及格,讯⻜星⽕、阿⾥巴巴Qwen2-72b等国产⼤模型在⾼考数学客观题中具有较⾼的准确率,令⼈眼前⼀亮。当然,LLMEVAL团队在评测后也指出,⼤模型在数学推理任务中的鲁棒性与准确性仍有很⼤的提升空间。
语⽂、英语⾼考测试,作⽂见真章。“AI考⽣”之于语⽂、英语⾼考,最引⼈注⽬的当数⼤模型的作⽂⽔平了。对于考⽣⽽⾔,作⽂考试主要考查学⽣运⽤语⾔成⽂的能⼒,考查的是识字情况、⽤词组句的能⼒以及表达事实、思想或观点的能⼒。事实上,作⽂是最能考验⼤模型语⾔理解能⼒和⽂本⽣成能⼒的测评⼯具,这两项能⼒正是时下⼤模型最为倚重的。
2024年全国⾼考语⽂科⽬考试⼀结束,就有不少场外师⽣使⽤市⾯上的⼤模型产品“写作⽂”。围绕新课标I卷⾼考作⽂题“答案与问题”、新课标II卷“抵达未知之境”、北京⾼考(1)(2)卷的作⽂题“历久弥新”和“打开”等题⽬,⽂⼼⼀⾔、讯⻜星⽕等多家⼤模型产品纷纷化身“写⼿”,并交出“作品”。⼀些⼤模型作⽂令⼈眼前⼀亮。
以全国新⾼考I卷的作⽂题为例,在这个具有思辨性的题⽬引导下,⼤模型提交的部分作⽂题不仅切题,更显巧妙,如《问,岂可少?》《疑问如春芽,答案似剪⼑》《于⽆疑处⽣疑,⽅是进矣》《问题不⽌,智慧⽆穷》《智涌未来,问海⽆涯》,等等。
近⽇,全国中⼩学⽣作⽂竞赛评委、中学语⽂教研专家吕政嘉和河南省基础教育教学专家库成员李来明共同对市⾯上7款⼤模型产品的上述4张试卷的作⽂进⾏了评测打分。
从打分情况来看,讯⻜星⽕、⽂⼼⼀⾔4.0、腾讯元宝在4张试卷的作⽂题上均有不俗表现,最⾼平均得分接近50分。能拿50分的AI作⽂⻓啥样?讯⻜星⽕作出的《问,岂可少?》得到均分51.5的评分。李来明对该⽂的评语为,“全⽂结构完整,思路清晰,论证层层递进,结构框架清晰明了。全⽂多处扣题⽣发议论,鞭辟⼊⾥,分析得当。但在⼀些地⽅,可以适当增加⼀些论证⼿法,使⽂章更加⽣动有趣”。
在⾼考英⽂作⽂题⽬“帮李华写邮件”中,中国外语教育研究中⼼特约研究员、知名教研策划专家周国荣和⼴东国家级示范校教师杨菁菁也对上述7款⼤模型产品的英语作⽂进⾏了评测和打分。他们将2024年⾼考真题作⽂要求输⼊7款⼤模型产品,⽣成作⽂后,由教研双评给出评分并作最⾼分点评。
全国⾼考卷的英语应⽤⽂写作题中,7款⼤模型产品均能完成试题规定的写作任务,结构上也能做到逻辑清晰、结构合理,其中不乏能够使⽤复杂句式,在语⾔表达上有多处亮点的作品。但这些⽂章也有⼀些明显的扣分项,如使⽤超纲词汇、超过字数上限等。打分⽅⾯,7款产品均有超过12分(满分15分)的表现,且得分相对稳定。在难度更⾼的全国⾼考英语卷“读后续写”题⽬和北京卷英语作⽂题中,7款⼤模型产品的表现有了差别。
周国荣和杨菁菁的打分和点评显示,讯⻜星⽕、腾讯元宝在“读后续写”题⽬中⾼分领先;在北京卷英语作⽂题中,讯⻜星⽕、⽉之暗⾯Kimi、⽂⼼⼀⾔4.0排前三位。综合来看,国产⼤模型在中国⾼考的表现不落下⻛,有着教育⾏业背景的讯⻜星⽕⼤模型在⼀众⼤模型中表现抢眼,堪称“更会做题的⼤模型”。
评测,还有很长的路要⾛。
评测作为对机器理解、处理、应⽤⾃然语⾔能⼒的⼀种评估和量化⼿段,是⼤模型领域技术⽔平和研究进展的直观体现,是相关研究的⼯具和重要驱动⼒。北京⼤学计算语⾔学研究所教授穗志⽅⽇前在“⼤模型+计算语⾔”专题论坛上的报告中表示,⼤模型在⼈类标准化考试中如中国⾼考、公务员考试、美国SAT考试等的表现,能够为其在真实世界中的能⼒提供评估参考,但仍存在⼀些问题。
如⼀些模型在诸如SAT数学测试等任务中表现优异,但在复杂推理或特定知识领域中的表现却⼜不够出⾊。截然相反的表现,让⼈⽆从评判。“在⼤模型内在机理没有探究清楚的情况下,我们⽬前的评测路径只能依靠从外部表现来推测内在能⼒。”穗志⽅说,现有评测仍存在规范性、系统性及科学性⽅⾯的问题,评测的深度和⼴度⽅⾯有待改进。
她提出,未来⼤模型评测应当以具有综合考查能⼒的类⼈机器语⾔能⼒评测为⽬标,在参考信度、难度、效度三⼤原则的基础上,发展更系统的评测⼤纲、更具挑战的评测任务、更科学的评测⽅法,采取更多样、更鲁棒的评测⼿段,科学⾼效地为⼤模型提供客观、公平、类⼈的评测结果。如此,⽅能引领和推动⼈⼯智能领域各类模型、⽅法的提出和创新。