CogVLM:智谱AI新一代多模态大模型

来源: GLM大模型

发布日期: 2023-10-12 16:03:28

智谱AI与清华KEG合作开发了新一代多模态大模型CogVLM,该模型在14个数据集上取得了state-of-the-art或第二名的成绩,并在视觉语言特征的深度融合方面表现出色。CogVLM-17B模型已开源,促进了多模态基础模型领域的研究和工业应用。

2023-10-12 16:03:28

内容来自:GLM大模型自5月18日发布并开源VisualGLM-6B以来,智谱AI&清华KEG潜心打磨,致力于开发更加强大的多模态大模型。基于对视觉和语言信息之间融合的理解,我们提出了一个新的视觉语言基础模型CogVLM。CogVLM可以在不牺牲任何NLP任务性能的情况下,实现视觉语言特征的深度融合。

我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型,在14个数据集上取得了state-of-the-art或者第二名的成绩。我们可以初步体验CogVLM的效果:在上图中,CogVLM能够准确识别出4个房子(3个完整可见,1个只有放大才能看到);作为对比,GPT-4V仅能识别出其中的3个。

为促进多模态基础模型领域的研究和工业应用,我们将CogVLM-17B开源出来,且提供了单台3090服务器即可运行的微调代码,供大家研究和使用。

CogVLM之所以能取得效果的提升,最核心的思想是“视觉优先”。之前的多模态模型通常都是将图像特征直接对齐到文本特征的输入空间去,并且图像特征的编码器通常规模较小,这种情况下图像可以看成是文本的“附庸”,效果自然有限。

而CogVLM在多模态模型中将视觉理解放在更优先的位置,使用5B参数的视觉编码器和6B参数的视觉专家模块,总共11B参数建模图像特征,甚至多于文本的7B参数量。CogVLM的结构如下所示:模型共包含四个基本组件:ViT编码器,MLP适配器,预训练大语言模型(GPT-style)和视觉专家模块。

为了更为严格地验证CogVLM的性能和泛化能力,我们在一系列多模态基准上进行了定量评估。

这些基准大致分为三类(共14个),包括图像字幕(Image Captioning)、视觉问答(Visual QA)、视觉定位(Visual Grounding)。在这些基准当中,CogVLM-17B在10项基准中取得SOTA性能,而在另外四项(包括VQAv2, OKVQA, TextVQA, COCO captioning等)取得第二的成绩。整体性能超越或匹配谷歌的PaLI-X 55B。

CogVLM延续了VisualGLM的研究,但进行了较大尺度的改进。首先体现在多模态融合的技术上,CogVLM采用了最新的图像和文本信息融合的方案,在我们文章中已经有相关的说明。其次,VisualGLM是一个依赖于具体语言模型的多模态模型,而CogVLM则是一个更广阔的系列,不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。这次开源的17B模型就是基于Vicuna-7B的英文模型。

其实我们内部也训练完成了更大的英文模型和基于GLM的双语模型,后面可能也会开源出来。

首先,通过大量的实验,我们得出一个结论,即更大的参数量对视觉多模态模型很重要。之前有观点认为视觉不需要大模型。因为人们在一些传统的数据集(例如ImageNet-1k等)上做的验证,发现模型变大对性能的提升似乎并不是很大。但之所以出现这个现象,原因在于传统数据集大部分的测试样例太简单了,小的模型足以应对这样的问题。

然而人类世界中视觉模型需要认识的事物远远不止几千、几万类,例如各种品牌商标、名人相貌、地点、动植物品类、商品品类等,小模型不可能记住;同时在这种“开放词典”的设定下,由于可能类别增加,出错的概率也会上升。我们做了一些实验,发现对于这些真实场景中的问题,模型变大往往会带来非常明显的效果提升。

模型有幻觉,根源还是在于模型能力不足。

之前的多模态模型,无论是MiniGPT-4、VisualGLM-6B还是LLaVA,经常会在描述时说一些明显不存在于图像中的物体或者错误的颜色。本质还是模型无法识别某些特别的视觉表示,从而遵循先验输出在该场景中的常见物体。在这方面,我们通过特定的微调,对不确定的物体,模型会输出“不清楚”,以此来减少幻觉现象,从而提高用户体验。当然这并不能彻底消除幻觉,但可以大大降低幻觉出现的频次。

另外一个有效的解决幻觉的方法,就是用更大的参数,以及更多的训练量。经过这两种方案,CogVLM的幻觉已经降到一个比较低的水平。

无论是现实还是虚拟的界面的感知、交互,主要以视觉等为媒介。现在的大语言模型虽然有智能的涌现,但是仍然被关在“笼子”里,它与这个世界是割裂的。一个完整的智能agent,必然是多模态的理解。多模态理解是智能发展和应用的必由之路。也正是基于同样的理解,智谱AI,希望能够在这个方向上趟出一条路来。

UUID: bffe259d-cf34-4102-99d0-1c46345d44f6

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-10-12_CogVLM:智谱AI新一代多模态大模型.txt

是否为广告: 否

处理费用: 0.0062 元