国产开源版 Sora 来了!可商用,4090单卡推理,A6000可微调

来源: 学术头条

发布日期: 2024-08-06 12:26:56

CogVideoX 2B 是首个开源的商用级视频生成模型,与智谱AI「清影」同源,具有高质量视频生成能力,单张 4090 显卡即可进行推理,单张 A6000 显卡即可完成微调。

自 OpenAI 推出 Sora 以来,AI 视频生成模型已然在全球范围内百花齐放。然而,近半年之后,业内却仍未出现一个开源的、满足商业级应用需求的视频生成模型。今天,首个开源的商用级视频生成模型——CogVideoX 2B,它来了。

CogVideoX 2B 是与智谱AI「清影」同源的开源视频生成模型,视频长度为 6 秒,帧率为 8 帧/秒,视频分辨率为 720*480,提示词上限为 226 个 token。值得一提的是,CogVideoX 2B 在 FP-16 精度下的推理仅需 18GB 显存,微调则只需 40GB 显存,这意味着单张 4090 显卡即可进行推理,单张 A6000 显卡即可完成微调。

此次 CogVideoX 2B 以及后续更大版本视频生成模型的开源,旨在让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,进而推动整个行业的快速迭代与创新发展。另外,智谱 AI 为视频质量的提升预留了广阔的空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。

可以看到,上述 CogVideoX 2B 的视频生成效果十分惊艳,将精致的木制玩具船、白色复古越野车和年轻女孩的凄美镜头刻画的非常逼真、形象。在实际文本到视频生成任务的评估中,CogVideoX 2B 也非常能打。相比于 Pika、Gen-2 和 Open-Sora V1.2,CogVideoX 2B 在各个指标上的表现,都是最好的。

CogVideoX 2B 惊艳的视频效果,离不开智谱AI 自研的架构、数据和算法。在架构方面,自研了将文本、时间和空间三个维度全部融合的 Transformer 架构;数据方面,自研视频理解模型,提高了模型的指令遵从度;算法方面,同样自研了高效的 3D VAE。

UUID: 3025f48e-e808-4150-a1a2-8cd694cadeed

原始文件名: /home/andie/dev/tudou/annot/微推助手/学术头条/学术头条_2024-08-06_国产开源版Sora来了!可商用,4090单卡推理,A6000可微调.html

是否为广告: 否

处理费用: 0.0039 元