大模型论文周报

来源: 学术头条

发布日期: 2024-06-16 08:25:04

本文介绍了多个研究团队在大模型和多模态学习方面的最新进展,包括上海交大、北航、小红书提出的 Vript 和阿里达摩院推出的 VideoLLaMA 2 等视频大语言模型。这些模型通过高质量的视频文本数据集和创新的训练范式,显著提升了视频理解和生成的性能。

一段视频胜过千言万语,上海交大、北航、小红书提出 Vript。多模态学习,尤其是视频理解和生成方面的进步,需要高质量的视频文本数据集来提高模型性能。由上海交通大学、北京航空航天大学和小红书研究团队提出的 Vript 通过精心标注的 12000 高分辨率视频语料库解决了这一问题,为超过 42 万个片段提供了详细、密集、类似脚本的字幕。

每个片段的字幕约有 145 个单词,比大多数视频文本数据集长 10 倍以上。与以往数据集中仅记录静态内容的字幕不同,他们将视频字幕增强为视频脚本,不仅记录内容,还记录相机的操作,包括 shot 类型(中景、特写等)和相机运动(平移、倾斜等)。

通过使用 Vript,他们探索了三种训练范式,使更多文本与视频模态对齐,而不是片段-字幕对齐。这使得 Vriptor 成为开源模型中的 SOTA 视频字幕模型,其性能可与 GPT-4V 相媲美。Vriptor 也是一个功能强大的模型,能够为长视频端到端生成密集而详细的字幕。此外,他们还提出了 Vript-Hard,这是一个由三个视频理解任务组成的基准,比现有基准更具挑战性。

阿里达摩院推出视频大语言模型 VideoLLaMA 2。在这项工作中,阿里达摩院团队提出了一个视频大语言模型——VideoLLaMA 2,旨在增强面向视频和音频任务的时空建模和音频理解能力。在其前身的基础上,VideoLLaMA 2 采用了量身定制的时空卷积(STC)连接器,可有效捕捉视频数据错综复杂的时空动态。

此外,他们还通过联合训练将音频分支集成到模型中,从而通过无缝集成音频线索来丰富模型的多模态理解能力。

在多选视频问题解答(MC-VQA)、开放式视频问题解答(OE-VQA)和视频字幕(VC)任务上进行综合评估表明,VideoLLaMA 2 在开源模型中始终取得具有竞争力的结果,甚至在几个基准测试中接近某些专有模型。此外,与现有模型相比,VideoLLaMA 2 在纯音频和音频视频问题解答(AQA 和 OE-AVQA)基准测试中表现出合理的改进。

UUID: 22ceabe7-9c17-499f-84c1-c19fc23fab4d

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-06-16_一段视频胜过千言万语,上海交大、北航、小红书提出Vript|大模型周报.txt

是否为广告: 否

处理费用: 0.0083 元