迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强

作者: 闫⼀⽶

来源: 学术头条

发布日期: 2023-10-17 11:56:27

谷歌推出PaLI-3视觉语言模型,该模型更小、更快、更强,具有显著竞争⼒,特别是在定位和⽂本理解⽅⾯。研究⼈员通过比较分类预训练和对⽐性预训练的模型,发现后者在多模态基准测试中表现卓越。PaLI-3的推出可能推动新一代更大规模模型的发展。

上个⽉,ChatGPT 正式具备了图像与语⾳识别能⼒。本⽉初,微软更是公布了 166 ⻚的多模态版 GPT-4V 的相关⽂档,详细探讨了 GPT-4V 的功能和使⽤情况,这⼀举动引起了业界的⼴泛关注。然⽽,在视觉语⾔模型的⻆逐中,⾕歌也不⽢示弱。

近⽇,Google Research、Google DeepMind 和 Google Cloud 共同推出了⼀个更⼩、更快、更强⼤的视觉语⾔模型(VLM)——PaLI-3,该模型与相似的体积⼤ 10 倍的模型相⽐具有显著竞争⼒。

研究⼈员使⽤分类⽬标预训练的视觉变换器(ViT)模型与对⽐性预训练的模型(SigLIP)进⾏了⽐较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和⽂本理解⽅⾯。

相关研究论⽂以“PaLI-3 Vision Language Models: Smaller, Faster, Stronger”为题,已发表到预印本⽹站 arXiv 上。研究团队认为,仅有 50 亿参数的 PaLI-3 重新点燃了关于复杂 VLM 核⼼组成部分的研究,可能推动新⼀代规模更⼤的模型的发展。更⾼分辨率的多模态学习。

最近,⼤型视觉语⾔模型在其更⼤的模型中使⽤预训练的图像编码器,其中⼀些使⽤监督分类进⾏预训练(如 PaLI,PaLI-X,Flamingo,PaLM-E),⼀些使⽤预训练的 CLIP 编码器(如 BLIPv2,CrossTVR,ChatBridge,还有⼀些使⽤⾃定义多模态预训练(如 BEiT3,CoCa,SimVLM)。

本次研究的训练⽅法包括三个主要组成部分:在⽹络规模的图像⽂本数据上进⾏图像编码器的对⽐性预训练,改进的 PaLI 多模态训练数据混合以及以更⾼分辨率进⾏训练。在单模态预训练阶段,图像编码器在 Web 上的图像⽂本配对上采⽤ SigLIP 训练协议进⾏对⽐预训练。研究⼈员采⽤了⼀种基于模型的过滤⽅法,保留了⼤约 40% 的配对。图像编码器在 224×224 的分辨率下进⾏训练。

⽂本编码器-解码器是⼀个 3B UL2 模型,按照混合去噪程序进⾏训练。在多模态训练阶段,研究⼈员将图像编码器与⽂本编码器-解码器结合在⼀起,形成了 PaLI 模型。这个模型针对多模态任务进⾏训练,保持图像编码器的冻结状态,使⽤原⽣分辨率(224×224)。主要的数据混合来⾃ WebLI 数据集,经过筛选和使⽤特定的训练⽬标。

其他元素包括多语⾔字幕、OCR 处理、跨语⾔ VQA 和 VQG、物体感知 VQA 以及物体检测。虽然没有包括来⾃视频的任务或数据,但由于强⼤的图像编码器,PaLI-3 在这些基准上仍然具有竞争⼒。此外,通过向 WebLI 添加了包含稠密⽂本和⽹络图像(如海报或⽂档)的 PDF ⽂档,以及⽀持 100 多种语⾔的⽂本,⽂档和图像理解能⼒得到了进⼀步的提⾼。

在提⾼分辨率阶段,研究通过对整个模型进⾏微调(解冻图像编码器)并使⽤逐渐增加分辨率的短期课程来提⾼ PaLI-3 的分辨率,保持在 812×812 和 1064×1064 分辨率处的检查点。数据混合主要集中在涉及视觉定位⽂本和物体检测的部分。提升图像理解与⽂本定位任务⾸先,研究⼈员在 PaLI 框架内进⾏了对不同的 ViT 模型的有控制的⽐较。

结果发现,虽然 SigLIP 模型的少样本线性分类性能较差,但当在 PaLI-3 中使⽤时,SigLIP 模型在“简单”任务(如字幕和问答)上提供了适度的性能提升,并在更“复杂”的场景⽂本和空间理解任务(如 TextVQA 和 RefCOCO 变体)上提供了⼤幅提升。随后,研究⼜在视觉定位⽂本理解任务中评估了 PaLI-3,这些数据集中的图像涉及⾃然图像、插图、⽂档和⽤户界面等各种领域。

PaLI-3 在绝⼤多数字幕和 VQA 基准上,⽆论是否有外部 OCR 输⼊,都取得了最先进的性能。唯⼀的例外是 AI2D 和 ChartQA,它们不仅需要理解,还需要对图表进⾏强⼤的推理能⼒。对于这两个基准,PaLI-3 稍微落后于 PaLI-X。另外,研究⼈员还扩展了 PaLI-3 的功能,使其能够通过语⾔类似的输出来预测分割遮罩。

实验结果表明,对于这种类型的定位任务,对⽐预训练要⽐分类预训练更为有效。完整的 PaLI-3 模型能够在指代表达分割⽅⾯稍微优于最先进的⽅法。在⾃然图像理解部分,研究对 PaLI-3 在通⽤视觉语⾔理解任务上进⾏了评估,包括 COCO 字幕和 VQAv2,尽管与最近的 SOTA 模型相⽐,PaLI-3 的规模要⼩得多,但在这些基准上表现⾮常出⾊。

在视频字幕和问答部分,研究⼈员在 4 个视频字幕基准上对 PaLI-3 模型进⾏了微调和评估:MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。然后,对 3 个视频问题解答基准进⾏了同样的测试:NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。

尽管没有使⽤视频数据进⾏预训练,PaLI-3 仍然以较⼩的模型规模取得了出⾊的视频质量保证结果。总⽽⾔之,在本研究中,研究⼈员深⼊研究了 VLM 中图像编码器的预训练,特别是 PaLI 类型的模型。研究⾸次明确了⽐较了分类预训练和图像⽂本(对⽐性)预训练这两种⽅法,发现后者可以带来更好和更⾼效的 VLM,特别是在定位和⽂本理解任务⽅⾯。

另外,研究⼈员在论⽂中指出:“这只是 VLM 的⼀个⼩⽅⾯,我们希望这项研究和其结果能够激励对 VLM 训练的众多其他⽅⾯进⾏深⼊探讨。”

UUID: a7d78b5f-d803-4885-a983-a5f60458bf2b

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-10-17_迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强.txt

是否为广告: 否

处理费用: 0.0069 元