马斯克发布Grok-1.5,强化推理和上下文,HumanEval得分超GPT-4

来源: 学术头条

发布日期: 2024-03-29 12:21:31

xAI 发布了最新模型 Grok-1.5,该模型在编码和数学任务中表现优异,HumanEval 基准测试得分超过 GPT-4,并能处理长达 128K 字节的长上下文。

继开源 Grok-1 后,xAI 刚刚官方发布了他们的最新模型 Grok-1.5。据介绍,Grok-1.5 能够进行长语境理解和高级推理,并将于近日在 xAI 平台上向早期测试者和现有 Grok 用户开放。Grok-1.5 最显著的改进之一是其在编码和数学相关任务中的表现。

在给出的测试结果中,Grok-1.5 在 MATH 基准测试中取得了 50.6% 的得分,在 GSM8K 基准测试中取得了 90% 的得分。此外,在评估代码生成和解决问题能力的 HumanEval 基准测试中,Grok-1.5 获得了 74.1% 的高分,超过了 GPT-4。另外,Grok-1.5 的一项新功能是在上下文窗口中处理多达 128K 字节的长上下文。

这使得 Grok 的内存容量增加到以前上下文长度的 16 倍,从而能够利用更长文档中的信息。此外,Grok-1.5 还能够处理更长、更复杂的提示,同时随着上下文窗口的扩大,仍能保持其指令跟随能力。在 NIAH(Needle In A Haystack)评估中,Grok-1.5 展示了强大的检索能力,可检索长度达 128K 字节的上下文中的嵌入文本,并取得了完美的检索结果。

xAI 官方还表示,随着 Grok-1.5 逐步向更广泛的用户推出,未来几天也会推出几项新功能。

UUID: 90f811cb-46b5-41b2-bc4e-e9cf7b903b25

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-03-29_刚刚,马斯克发布Grok-15,强化推理和上下文,.txt

是否为广告: 否

处理费用: 0.0020 元