文生视频检测新工具DIVID发布,准确率高达93.7%

作者: 马雪薇

来源: 学术头条

发布日期: 2024-07-04 08:24:28

哥伦比亚大学杨俊锋教授团队开发了一种名为DIVID的文生视频检测工具,对于由SORA、Gen-2和Pika等模型生成的视频,检测准确率达到了93.7%。该工具通过分析视频内容来判断其是否由AI生成,旨在应对AI生成视频在传播虚假信息等方面的风险。

SORA、Gen-2、Pika也逃不过!文生视频检测新工具来了,准确率高达93.7%。从很多细节和既有事实上来看,霉霉说中文的视频肯定是虚构的,出自“生成式AI”之手。如今,通过制作逼真的视频内容,AI视频生成工具正在改变设计、营销、娱乐和教育等行业。尤其是Sora、Gen-3等文生视频模型,只需要输入几行prompt文字,便可以生成逼真、连续、高质量的视频大片。

这一技术在为世界各地创作者带来无数可能性的同时,也为普通大众带来了诸多危害和风险,尤其是在传播虚假信息、宣传、诈骗和网络钓鱼等方面。因此,如何准确识别AI生成的视频,已成为每一个人都需要关心的问题。

日前,哥伦比亚大学杨俊锋教授团队便开发了一种名为DIVID(DIffusion-generated VIdeo Detector)的文生视频检测工具,对于由SORA、Gen-2和Pika等模型生成的视频,检测准确率达到了93.7%。相关研究论文(包含开源代码和数据集)已于上月在西雅图举行的计算机视觉与模式识别会议(CVPR)上展示。

现有的Deepfake检测器在识别GAN生成的样本方面表现出色,但在检测扩散模型生成的视频方面鲁棒性不足。在这项工作中,研究团队通过DIVID这一新工具来检测由AI生成的视频。据介绍,DIVID基于该团队今年早些时候发布的成果——Raidar,其通过分析文本本身来检测由AI生成的文本,而无需访问大语言模型(LLM)的内部运作。

Raidar使用LLM来重述或修改给定文本,然后测量系统对该文本的编辑次数。编辑次数越多,意味着文本更可能是由人类撰写;编辑次数越少,意味着文本更可能是机器生成的。他们使用相同的概念开发了DIVID。DIVID通过重构视频并将新重构的视频与原始视频进行对比来工作。

它使用DIRE值来检测扩散生成的视频,因为该方法基于这样一个假设:由扩散模型生成的重构图像应彼此非常相似,因为它们是从扩散过程分布中采样的。如果存在显著的变化,原始视频可能是人类生成的,如果没有,则可能是AI生成的。DIVID在其基准数据集中对Stable Vision Diffusion、Sora、Pika和Gen-2生成的视频实现了高达93.7%的检测准确率。

目前,DIVID是一个命令行工具,用于分析视频并输出其是由AI还是人类生成的,且仅供开发者使用。研究人员指出,他们的技术有潜力作为插件集成到Zoom中,以实时检测深度伪造电话。团队还考虑开发一个网站或浏览器插件,使DIVID对普通用户可用。研究人员目前正在改进DIVID的框架,以便处理来自开源视频生成工具的不同类型的合成视频。他们还在使用DIVID收集视频以扩展DIVID数据集。

“我们的框架在检测AI生成内容方面取得了重大进展,”该论文的作者之一、蔡昀芸博士说道。“有太多不法分子在使用AI生成视频,关键是要阻止他们并保护社会。”

UUID: f2e5ab52-be53-40a2-bd8e-00d62d7f21a9

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-07-04_SORA、Gen-2、Pika也逃不过!文生视频检测新工具来了,准确率高达93.7%.txt

是否为广告: 否

处理费用: 0.0038 元