比GPT-4还强,20亿参数模型做算术题,准确率几乎100%

作者: 陈萍、小舟

来源: 机器之心

发布日期: 2023-09-19 12:17:17

清华⼤学、TAL AI Lab 和智谱 AI 的研究者联合提出了⼀个能够完美执⾏复杂算术运算的新模型 MathGLM,研究表明在⾜够的训练数据下,20 亿参数的语⾔模型能够准确地进⾏多位算术运算,准确率⼏乎达到了 100%,且不会出现数据泄露。

语⾔模型做数学题,能⼒⼜升级了。当前,⼤型语⾔模型 (LLM) 在处理 NLP 领域的各种下游任务⽅⾯已经表现出卓越的能⼒。特别是,GPT-4、ChatGPT 等开创性模型已经接受了⼤量⽂本数据的训练,使它们具备强⼤的⽂本理解和⽣成能⼒,能够⽣成连贯且上下⽂相关的响应,在各种 NLP 任务中具有⾼度通⽤性。然⽽,LLM 在数学推理⽅⾯的性能却不尽如⼈意。

LLM 很难准确地执⾏复杂的算术运算,尤其是涉及超过 8 位数字乘法的运算,还有涉及⼩数、分数的运算。基于此,来⾃清华⼤学、TAL AI Lab 和智谱 AI 的研究者联合提出了⼀个能够完美执⾏复杂算术运算的新模型 ——MathGLM。

该研究表明:在⾜够的训练数据下,20 亿参数的语⾔模型能够准确地进⾏多位算术运算,准确率⼏乎达到了 100%,且不会出现数据泄露(data leakage)。这个结果⼤幅超越了 GPT-4(其多位乘法运算准确率仅为 4.3%)。

本⽂提出了⼀个名为 MathGLM 的模型来探讨 LLM 在数学推理⽅⾯的效率。MathGLM 模型需要完成的算术任务⼤致可以分为两类:基本算术运算和复杂混合运算。为了增强 MathGLM 的算术能⼒,本⽂采⽤了基于 Transformer 的仅解码器架构,并使⽤⾃回归⽬标(autoregressive objective)在⽣成的算术数据集上从头开始训练它。

算术训练数据集是精⼼设计的,包括加法、减法、乘法、除法和求幂等多种运算。此外,它还包含多种数字格式,例如整数、⼩数、百分⽐、分数和负数。

本⽂设计了两种不同类型的实验,包括算术任务和数学应⽤题。对于算术任务,本⽂预训练了⼀个基于 Transformer 的 MathGLM 模型,该模型具有 500M 参数,并将其与领先的⼤型语⾔模型 (LLM)(例如 GPT-4 和 ChatGPT)的性能进⾏了⽐较。结果表明,MathGLM 在处理算术任务⽅⾯具有卓越的性能。

UUID: 2bb17b4b-6f89-4d56-a784-122117fe185a

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-09-19_比GPT-4还强,20亿参数模型做算术题,准确率几乎100%.txt

是否为广告: 否

处理费用: 0.0045 元