揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

作者: 泽南、蛋酱

来源: 机器之心

发布日期: 2024-02-20 11:43:24

Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿。OpenAI发布的Sora展现了生成式模型的潜力,特别是在多模态生成方面。Sora的成功背后,有一系列近期业界、学界的计算机视觉、自然语言处理的技术进展作为支撑。

Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿。如果你对大模型感兴趣,想了解相关的前沿研究进展,欢迎扫码入群~来源:机器之心编辑:泽南、蛋酱。至此已成艺术的Sora,是从哪条技术路线发展出来的?最近几天,据说全世界的风投机构开会都在大谈Sora。自去年初ChatGPT引发全科技领域军备竞赛之后,已经没有人愿意在新的AI生成视频赛道上落后了。

在这个问题上,人们早有预判,但也始料未及:AI生成视频,是继文本生成、图像生成以后技术持续发展的方向,此前也有不少科技公司抢跑推出自己的视频生成技术。不过当OpenAI出手发布Sora之后,我们却立即有了「发现新世界」的感觉——效果和之前的技术相比高出了几个档次。Sora生成的视频,美国西部的淘金时代。感觉加上个解说和背景音乐就可以直接用在专题片里了。

在Sora及其技术报告推出后,我们看到了长达60秒,高清晰度且画面可控、能多角度切换的高水平效果。在背后的技术上,研究人员训练了一个基于Diffusion Transformer(DiT)思路的新模型,其中的Transformer架构利用对视频和图像潜在代码的时空patch进行操作。正如华为诺亚方舟实验室首席科学家刘群博士所言,Sora展现了生成式模型的潜力(特别是多模态生成方面)显然还很大。

加入预测模块是正确的方向。至于未来发展,还有很多需要我们探索,现在还没有像Transformer之于NLP领域那样的统一方法。想要探求未来的路怎么走,我们或许可以先思考一下之前的路是怎么走过的。那么,Sora是如何被OpenAI发掘出来的?

从OpenAI的技术报告末尾可知,相比去年GPT-4长篇幅的作者名单,Sora的作者团队更简洁一些,需要点明的仅有13位成员:这些参与者中,已知的核心成员包括研发负责人Tim Brooks、William Peebles、系统负责人Connor Holmes等。这些成员的信息也成为了众人关注的焦点。

比如,Sora的共同领导者Tim Brooks,博士毕业于UC Berkeley的「伯克利人工智能研究所」BAIR,导师为Alyosha Efros。在博士就读期间,他曾提出了InstructPix2Pix,他还曾在谷歌从事为Pixel手机摄像头提供AI算法的工作,并在英伟达研究过视频生成模型。

另一位共同领导者William(Bill)Peebles也来自于UC Berkeley,他在2023年刚刚获得博士学位,同样也是Alyosha Efros的学生。在本科时,Peebles就读于麻省理工,师从Antonio Torralba。值得注意的是,Peebles等人的一篇论文被认为是这次Sora背后的重要技术基础之一。

论文《Scalable diffusion models with transformers》,一看名字就和Sora的理念很有关联,该论文入选了计算机视觉顶会ICCV2023。不过,这项研究在发表的过程还遇到了一些坎坷。

上周五Sora发布时,图灵奖获得者、Meta首席科学家Yann LeCun第一时间发推表示:该研究是我的同事谢赛宁和前学生William Peebles的贡献,不过因为「缺乏创新」,先被CVPR2023拒绝,后来被ICCV2023接收。具体来说,这篇论文提出了一种基于transformer架构的新型扩散模型即DiT。

在该研究中,研究者训练了潜在扩散模型,用对潜在patch进行操作的Transformer替换常用的U-Net主干网络。他们通过以Gflops衡量的前向传递复杂度来分析扩散Transformer (DiT)的可扩展性。研究者发现,通过增加Transformer深度/宽度或增加输入token数量,具有较高Gflops的DiT始终具有较低的FID。

除了良好的可扩展性之外,DiT-XL/2模型在class-conditional ImageNet 512×512和256×256基准上的性能优于所有先前的扩散模型,在后者上实现了2.27的FIDSOTA数据。目前这篇论文的引用量仅有191。

同时可以看到,William(Bill)Peebles所有研究中引用量最高的是一篇名为《GAN无法生成什么》的论文:当然,论文的作者之一,前FAIR研究科学家、现纽约大学助理教授谢赛宁否认了自己与Sora的直接关系。毕竟Meta与OpenAI互为竞争对手。Sora成功的背后,还有哪些重要技术?成功的背后,还有哪些重要技术?

除此之外,Sora的成功,还有一系列近期业界、学界的计算机视觉、自然语言处理的技术进展作为支撑。简单浏览一遍参考文献清单,我们发现,这些研究出自谷歌、Meta、微软、斯坦福、MIT、UC伯克利、Runway等多个机构,其中不乏华人学者的成果。归根结底,Sora今天的成就源自于整个AI社区多年来的求索。

从32篇参考文献中,我们选择了几篇展开介绍:Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).论文标题:World Models作者:David Ha、Jurgen Schmidhuber机构:谷歌大脑、NNAISENSE(Schmidhuber创立的公司)、Swiss AI Lab论文链接:https://arxiv.org/pdf/1803.10122.pdf这是一篇六年前的论文,探索的主题是为强化学习环境建立生成神经网络模型。

世界模型可以在无监督的情况下快速训练,以学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为代理的输入,研究者发现能够训练出非常紧凑和简单的策略,从而解决所需的任务,甚至可以完全在由世界模型生成的幻梦中训练代理,并将该策略移植回实际环境中。

Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).论文标题:VideoGPT: Video Generation using VQ-VAE and Transformers作者:Wilson Yan、Yunzhi Zhang、Pieter Abbeel、Aravind Srinivas机构:UC伯克利论文链接:https://arxiv.org/pdf/2104.10157.pdf这篇论文提出的VideoGPT可用于扩展基于似然的生成对自然视频进行建模。

Video-GPT将通常用于图像生成的VQ-VAE和Transformer模型以最小的修改改编到视频生成领域,研究者利用VQVAE通过采用3D卷积和轴向自注意力学习降采样的原始视频离散潜在表示,然后使用简单的类似GPT的架构进行自回归,使用时空建模离散潜在位置编码。

VideoGPT结构下图:Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.论文标题:NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion作者:Chenfei Wu、Jian Liang、Lei Ji、Fan Yang、Yuejian Fang、Daxin Jiang、Nan Duan机构:微软亚洲研究院、北京大学论文链接:https://arxiv.org/pdf/2111.12417.pdf相比于此前只能分别处理图像和视频、专注于生成其中一种的多模态模型,NÜWA是一个统一的多模态预训练模型,在8种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

为了同时覆盖语言、图像和视频的不同场景,NÜWA采用了3D Transformer编码器-解码器框架,它不仅可以处理作为三维数据的视频,还可以分别用于处理一维和二维数据的文本和图像。该框架还包含一种3D Nearby Attention (3DNA)机制,以考虑空间和时间上的局部特征。3DNA不仅降低了计算复杂度,还提高了生成结果的视觉质量。

与几个强大的基线相比,NÜWA在文本到图像生成、文本到视频生成、视频预测等方面都得到了SOTA结果,还显示出惊人的零样本学习能力。

He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.论文标题:Masked autoencoders are scalable vision learners作者:Kaiming He、Xinlei Chen、Saining Xie、Yanghao Li、Piotr Dollar、Ross Girshick机构:Meta论文链接:https://arxiv.org/abs/2111.06377这篇论文展示了一种被称为掩蔽自编码器(masked autoencoders,MAE)的新方法,可以用作计算机视觉的可扩展自监督学习器。

MAE的方法很简单:掩蔽输入图像的随机区块并重建丢失的像素。它基于两个核心理念:研究人员开发了一个非对称编码器-解码器架构,其中一个编码器只对可见的patch子集进行操作(没有掩蔽token),另一个简单解码器可以从潜在表征和掩蔽token重建原始图像。研究人员进一步发现,掩蔽大部分输入图像(例如75%)会产生重要且有意义的自监督任务。

结合这两种设计,就能高效地训练大型模型:提升训练速度至3倍或更多,并提高准确性。用MAE做pre-training只需ImageNet-1k就能达到超过87%的top 1准确度,超过了所有在ImageNet-21k pre-training的ViT变体模型。从方法上,MAE选择直接重建原图的元素,而且证明了其可行性,改变了人们的认知,又几乎可以覆盖CV里所有的识别类任务,开启了一个新的方向。

具有良好扩展性的简单算法是深度学习的核心。在NLP中,简单的自监督学习方法(如BERT)可以从指数级增大的模型中获益。在计算机视觉中,尽管自监督学习取得了进展,但实际的预训练范式仍是监督学习。在MAE研究中,研究人员在ImageNet和迁移学习中观察到自编码器——一种类似于NLP技术的简单自监督方法——提供了可扩展的前景。视觉中的自监督学习可能会因此走上与NLP类似的轨迹。

Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022论文标题:High-resolution image synthesis with latent diffusion models作者:Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser、Bjorn Ommer机构:慕尼黑大学、Runway论文链接:https://arxiv.org/pdf/2112.10752.pdf基于这篇论文的成果,Stable Diffusion正式面世,开启了在消费级GPU上运行文本转图像模型的时代。

该研究试图利用扩散模型实现文字转图像。尽管扩散模型允许通过对相应的损失项进行欠采样(undersampling)来忽略感知上不相关的细节,但它们仍然需要在像素空间中进行昂贵的函数评估,这会导致对计算时间和能源资源的巨大需求。该研究通过将压缩与生成学习阶段显式分离来规避这个问题,最终降低了训练扩散模型对高分辨率图像合成的计算需求。

Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).论文标题:Photorealistic Video Generation with Diffusion Models作者:李飞飞等机构:斯坦福大学、谷歌研究院、佐治亚理工学院论文链接:https://arxiv.org/pdf/2312.06662.pdf在Sora之前,一项视频生成研究收获了大量赞誉:Window Attention Latent Transformer,即窗口注意力隐Transformer,简称W.A.L.T。

该方法成功地将Transformer架构整合到了隐视频扩散模型中,斯坦福大学的李飞飞教授也是该论文的作者之一。值得注意的是,尽管概念上很简单,但这项研究首次在公共基准上通过实验证明Transformer在隐视频扩散中具有卓越的生成质量和参数效率。这也是Sora 32个公开参考文献中,距离此次发布最近的一项成果。

最后,Meta研究科学家田渊栋昨天指出,Sora不直接通过下一帧预测生成视频的方法值得关注。更多的技术细节,或许还等待AI社区的研究者及从业者共同探索、揭秘。在这一方面Meta也有很多已公开的研究。不得不说Sora推出后,我们虽然没有OpenAI的算力,但还有很多事可以做。|点击关注我 记得标星|

UUID: 7c4b8e7a-d3ea-4f93-9c8a-6e1a4cb656ac

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-02-20_「转」揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿.txt

是否为广告: 否

处理费用: 0.0098 元