智谱AI技术团队于2024年7月26日11:39:11发布消息,宣布推出新一代视频生成模型CogVideoX。该模型是智谱AI在多模态技术发展中的最新成果,旨在提升视频生成模型的内容连贯性和可控性。CogVideoX采用了高效的三维变分自编码器结构(3D VAE),能够将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。
此外,模型还设计了Expert Block以实现文本与视频两种不同模态空间的对齐,并通过Full Attention机制优化模态间的交互效果。CogVideoX模型目前已在智谱清言的PC端、移动应用端以及小程序端正式上线,用户可以通过AI视频生成功能「清影」免费体验文本生成视频和图像生成视频的服务。