昨天,多模态大模型GPT-4震撼登场!GPT-4能够接受图像和文本输入,输出文本,在各项测试和基准上的表现已经与人类水平相当。OpenAI一次性大放送,发布了GPT-4的技术报告、system card,并提供了ChatGPT Plus体验、GPT-4的API waitlist、demo视频,以及用于自动评估AI模型性能的OpenAI Eval框架。
OpenAI还宣称,GPT-4在包括美国律师资格考试、美国高考SAT在内的多项专业考试中已经超过了绝大多数人类的水准。公司CEO Sam Altman称,GPT-4是“我们迄今为止最强大、对齐最好的模型”。
在许多方面,GPT-4都已经能做到之前ChatGPT(GPT-3.5)所力不能及的事情。
相比ChatGPT,GPT-4支持更长的输入,一次可接受32768个token,相当于50页纸的内容,长篇学术论文可以直接丢给它去解读了。GPT-4跟GPT-3.5具有相同的API接口和交互界面,但在文本总结和加工能力上,GPT-4有了明显的提升,这表现在提出指令后,模型能更好地遵循指令给出答案。
例如让一篇文章变成一个句子,每个单词都以G开头,GPT-3.5还未尝试就放弃了任务,但在GPT-4中可以很好地完成。同时,GPT-4对指令的理解能力更佳。此次更新中,GPT-4最令人惊喜的能力,是它可接受图片输入,并对图片生成说明、分类和分析。
比如输入一张有鸡蛋、面粉和牛奶的图片,询问GPT-4可以使用这些原材料做什么,得到的结果如下:GPT-4可以实现从图片中提取文字信息并输出到HTML,比如尝试手绘一个笑话网站模型,让GPT-4尝试自动生成网站的原型图(程序员嗅到了危险的味道)。
在技术层面,一句话概括,GPT-4是一个Transformer模型,使用公开可用的数据(如互联网数据)和第三方提供商许可的数据进行预训练,预测文本中的下一个token,然后使用RLHF(来自人类反馈的强化学习)对模型进行微调。在一份98页的技术报告中,OpenAI报告了GPT-4的性能、局限性和安全特性,但并没有公开有关架构(包括模型参数量)、硬件、训练计算、数据集构建、训练方法等内容的更多细节。
OpenAI声称是“鉴于竞争格局和GPT-4等大规模模型的安全性影响”。关于GPT-4的参数量,此前OpenAI的CEO Sam Altman表示,GPT-4不会比GPT-3高出太多,但大家关于GPT-4拥有极大数据量的猜测仍有很多。
GPT-4开启了多模态大模型的时代,遗憾的是,OpenAI这次并没有公布GPT-4在多模态方面的技术细节。自然语言是多模态的基础。
目前GPT-4还只是文本+图像输入、文本输出,可以预测文本+图像不久也将实现。ChatGPT已经带火了NLP,GPT-4想必对于视觉领域的研究者们也是一大机遇,也或许是一次冲击。不过,在多模态大模型中,自然语言仍被认为是核心。UCL计算机系教授、上海数字大脑研究院院长汪军告诉AI科技评论,Chat构建了一个相对清晰的逻辑描述,它或许不是百分百严谨,但已经足够让我们去表达一些非常复杂的逻辑关系。
但他认为,这是一个Free power,也即是说,它可以能把这个问题表述得很清晰、但这是表象,最主要的是Chat里面含载的语义关系,当其他多模态来了之后,匹配上相应的语义表达,就可以迁移到其他的模态当中。
在通过交互界面获取信息这一点上,ChatGPT已经对用户完成了科普任务。GPT-4出现后,Chat将不再是大家关注的重点,GPT-4能力的跃升正在引发大家思考GPT时代的产业变革将怎样发生。
在前维卓CTO张烜看来,ChatGPT背后的时代变化,是从信息时代AI向用户快速提供丰富的信息,到AI直接提供完整的知识体系。ChatGPT的贡献是提供了一个便捷易用的交互界面,让普通人都能用得起来,功不可没,GPT-4是在此基础上的再一次飞跃。他认为,除了模型变得更大、更强以外,AI技术本身的变化可能不显著,但从应用的角度看,新的时代已经到来。
这个新时代便是知识体系和自动化的时代,AI优化的目标是自动化地输出最终结果和完整的知识体系。能够适应这种新形势的是以RPA(Robotic process automation)为代表的自动流程化分发,但是目前的RPA起始于20年前,不适用于现在的媒体方式和交互内容,需要在文字、图像和视频化处理上加以改进,才能和GPT完美匹配。
张烜对AI科技评论透露,这是GPT影响产业的一个重要方式,也将是他接下来的创业方向。