直播预告|⼿把⼿教你微调AI多模态⼤模型

来源: 学术头条

发布日期: 2023-05-30 18:22:46

本直播预告介绍了即将举行的关于微调AI多模态⼤模型的培训,重点讲解VisualGLM-6B和XrayGLM两个模型的理论、部署和微调方法,旨在帮助开发者理解和应用这些模型。

继GPT-4发布之后,多模态正成为⼤模型研究和应⽤的主流趋势之⼀。为了促进这⼀领域的迅速发展,近期智谱AI和清华⼤学KEG实验室开源了基于ChatGLM-6B的多模态对话模型VisualGLM-6B。

开源之后,⼀⽅⾯⼤家迅速部署了该模型,并发出许多有趣的demo:另⼀⽅⾯,则有不少⾼校和开发者基于VisualGLM微调出具有使⽤价值的项⽬,其中尤为突出的包括由澳⻔理⼯⼤学团队开发的XrayGLM——⼀个能读X光⽚的⼤模型。

为了让开发者更加容易地理解VisualGLM,并能够在⾃⼰机器上部署和微调VisualGLM,以开发出适⽤于⾃⼰领域的多模态⼤模型,我们邀请了VisualGLM的作者以及XrayGLM的作者来给我们从头讲解相关内容,并做详细的代码实践。作为能够理解图像的中⽂开源对话模型,VisualGLM⽬前仍处于v1版本,仍然有相当多的局限性。

这⼀⽅⾯,要求我们加快研发速度;另⼀⽅⾯,也离不开开发者社区共同建设。我们邀请⼤家⼀起观看本次「微调培训」,并希望能微调出更多有趣且有⽤的多模态⼤模型。培训时间:2023/5/30 19:00-21:30,腾讯会议:677-121-000。

微调培训主题课程1-VisualGLM:理论、部署、微调,讲师:丁铭,项⽬简介:VisualGLM-6B是⼀个开源的,⽀持图像、中⽂和英⽂的多模态对话语⾔模型,语⾔模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语⾔模型的桥梁,整体模型共78亿参数。

VisualGLM-6B依靠来⾃于CogView数据集的30M⾼质量中⽂图⽂对,与300M经过筛选的英⽂图⽂对进⾏预训练,中英⽂权重相同。该训练⽅式较好地将视觉信息对⻬到ChatGLM的语义空间;之后的微调阶段,模型在⻓视觉问答数据上训练,以⽣成符合⼈类偏好的答案。

VisualGLM-6B由SwissArmyTransformer(简称)库训练,这是⼀个⽀持Transformer灵活修改、训练的⼯具库,⽀持Lora、P-tuning等参数⾼效微调⽅法。本项⽬提供了符合⽤户习惯的huggingface接⼝,也提供了基于sat的接⼝。结合模型量化技术,⽤户可以在消费级的显卡上进⾏本地部署(INT4量化级别下最低只需8.7G显存)。

sat项⽬地址:https://github.com/THUDM/VisualGLM-6B。

课程2-XrayGLM:原理、数据、微调,讲师:王荣胜,项⽬简介:最近,通⽤领域的⼤语⾔模型(LLM),例如ChatGPT,在遵循指令和产⽣类似⼈类响应⽅⾯取得了显著的成功,这种成功间接促进了多模态⼤模型的研究和发展,如通⽤领域的多模态⼤模型MiniGPT-4、mPLUG-Owl、Multimodal-GPT和LLaVA。然⽽,此类多模态⼤模型却很少出现在医学领域的研究中,阻碍了相关研究发展。

visual-med-alpaca虽然在医学多模态⼤模型⽅⾯做出了⼀些很有成效的⼯作,然⽽其数据为英⽂诊断报告,不利于促进中⽂领域医学多模态⼤模型的研究发展。为此,我们开发了XrayGLM以解决上述问题。XrayGLM在医学影像诊断和多轮交互对话上显示出了⾮凡的潜⼒。项⽬链接:https://github.com/WangRongsheng/XrayGLM。

UUID: 32307ab2-d48e-47a9-864f-19c40cdb7db3

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-05-30_直播预告|手把手教你微调AI多模态大模型.txt

是否为广告: 否

处理费用: 0.0042 元