VisualGLM-6B:开源的多模态对话模型,最低只需8.7G显存

来源: 学术头条

发布日期: 2023-05-18 18:52:35

智谱AI和清华大学KEG实验室开源了基于ChatGLM-6B的多模态对话模型VisualGLM-6B,支持图像、中文和英文的多模态对话,具有62亿参数,图像部分通过BLIP2-Qformer构建视觉与语言模型的桥梁,整体模型共78亿参数。模型在消费级显卡上可本地部署,最低只需8.7G显存。

具有多模态能力的视觉语言模型令人充满想象。尽管GPT-4已经展示出了令人惊讶的多模态理解能力,但OpenAI暂未对GPT-4用户开放这一能力。近日,智谱AI和清华大学KEG实验室开源了基于ChatGLM-6B的多模态对话模型VisualGLM-6B——不仅可以进行图像的描述及相关知识的问答,也能结合常识或提出有趣的观点。

据介绍,VisualGLM-6B是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。另外,VisualGLM-6B依靠来自于CogView数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。

该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。值得关注的是,结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需8.7G显存)。

不过,据官方博客介绍,由于VisualGLM-6B仍处于v1版本,目前已知其具有相当多的局限性,如图像描述事实性/模型幻觉问题,图像细节信息捕捉不足,以及一些来自语言模型的局限性。

UUID: 53385cec-7ac5-4992-802b-e18d431646e4

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-05-18_VisualGLM-6B:开源的多模态对话模型,最低.txt

是否为广告: 否

处理费用: 0.0021 元