GPT-4之高考评测

作者: 刘沛羽

来源: 转自公众号:RUC AI Box

发布日期: 18/3/18下午6点1分

本文对OpenAI最新发布的大语言模型GPT-4在北京高考试卷上的表现进行了详细的测试与评估,涵盖语文数学英语等多个科目,重点考察了其在常识记忆阅读理解和复杂计算等方面的能力发现虽然总体表现良好但在方程求解等推理类问题上存在不足通过此次全面的高考模拟有助于更深入地了解其性能边界从而推动相关技术的发展.

本⽂介绍并讨论了对OpenAI最新发布的⼤语⾔模型GPT-4在北京⾼考题⽬上的测试结果。当GPT-4进⼊北京市2022高考考场能有什么表现?再冷的石头,坐上三年也会暖。

我们汇总了北京市2022高考的语、数学、英语、物理、化学等科目的考试题,包括所有的主观题和客观题,尽量考虑所有的主观题和客观题。本文和现有高考评测的区别在于之前大家只关注选择题目,这次评估我们特意将非选择题目囊括进来。

同时针对一些大型计算题目(如物理计算)还会逐句分析GPT-4的解答过程而不是只看答案如果答错了还会问为什么这么答之所以这么做因为我们尝试从做高考试的角度深入分析 GPT - 4的能力边界在哪希望对于大模型有更加全面的认识.

尽管考试具备参考答案但我们的测评过程仍面临以下几个挑战:图像表示问题在理科以及地理领域尤为突出分为三种情况处理首先最简单的情况是图示的存在与否并不影响理解因此可以直接忽略其次较为复杂一点的是图示提供了额外的信息我们会以括号辅助的形式添加到问题中以协助 GPT - 3.5理解前两种情况相对较少最困难的也是常见的情况是包含难以用语言详细描述但对解至关重要的图像只能跳过该不进行统计.

UUID: b62c6214-f312-4413-b210-e789a8c93c4c

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-03-18「转」_GPT-4之高考评测.txt

是否为广告: 否

处理费用: 0.0065 元