本⽂介绍并讨论了对OpenAI最新发布的⼤语⾔模型GPT-4在北京⾼考题⽬上的测试结果。当GPT-4进⼊北京市2022高考考场能有什么表现?再冷的石头,坐上三年也会暖。
我们汇总了北京市2022高考的语、数学、英语、物理、化学等科目的考试题,包括所有的主观题和客观题,尽量考虑所有的主观题和客观题。本文和现有高考评测的区别在于之前大家只关注选择题目,这次评估我们特意将非选择题目囊括进来。
同时针对一些大型计算题目(如物理计算)还会逐句分析GPT-4的解答过程而不是只看答案如果答错了还会问为什么这么答之所以这么做因为我们尝试从做高考试的角度深入分析 GPT - 4的能力边界在哪希望对于大模型有更加全面的认识.
尽管考试具备参考答案但我们的测评过程仍面临以下几个挑战:图像表示问题在理科以及地理领域尤为突出分为三种情况处理首先最简单的情况是图示的存在与否并不影响理解因此可以直接忽略其次较为复杂一点的是图示提供了额外的信息我们会以括号辅助的形式添加到问题中以协助 GPT - 3.5理解前两种情况相对较少最困难的也是常见的情况是包含难以用语言详细描述但对解至关重要的图像只能跳过该不进行统计.