近期,OpenAI推出了名为Sora的文生视频模型,其惊艳效果引发关注和热议,在国内的人工智能(AI)领域更是掀起了基准大模型讨论的热潮。目前,Sora可一次性生成高质量的1分钟视频,不仅在视频长度和质量上都超越了传统模型,视觉效果上达到了令人难以置信的真实,展示出人工智能在理解和创造动态影像方面的巨大潜力。
为了更好地帮助了解Sora背后的科学原理和影响,以及在AI科技发展和产业中的位置,我们和在美国硅谷从事人工智能研究的科学家田渊栋博士聊了聊。
在一个多小时的访谈中,田渊栋带来了一线硅谷科学家的观察和思考,许多洞察值得一读,尤其是对文生视频模型的现状与未来的解读,以及中美人工智能投资与创业生态的比较。以下为访谈要点,出于简洁和清晰,文字有编辑。
田渊栋,Meta AI Research(FAIR)担任研究科学家和高级经理
“Sora的进展比我预期的要快”
《知识分子》:首先,整体评价下您对Sora的观感?田渊栋:感谢你们对Sora的兴趣,最近这个方向确实很火,谈论的人很多。首先要声明我一直以来主要做优化,搜索和表示学习,还有可解释性,最近开始做一些大语言模型在训练和推理时的优化,包括算法和系统方面,并不是专业做文生图/视频的。
因为Sora用了Transformer作为骨架,让我有一些兴趣,但我只是作为一个旁观的研究员看一下最近的进展,给一些比较外行的评论。总体来说还是很惊喜的。过去的文生视频都比较短,但Sora能达到一分钟。这一分钟的视频基本上没有完全重复,包含大量视角转换,镜头拉近和拉远,以及物体的动作,动作也相当大,这是一个很大的进步。
《知识分子》:按您过去的估计,AI生成视频达到Sora现在的水平需要多久?Sora的进展比您预期的快吗?
田渊栋:是的,Sora的进展比我预期的快。我原本认为按照正常速度,达到现在这个水平可能需要一两年,但他们做得很快很好,出乎意料。
《知识分子》:Sora和过去的AI生成视频相比优势在哪里?
田渊栋:Sora的优势在于它并不是简单地预测下一帧,而是一次性预测整个视频序列。这种方式其实很有趣,它与通常的预测方式有所不同。过去很多AI生成视频的做法是先有照片,然后再预测照片的下一帧,把照片扩展成一个视频。实际上很多时候根据照片做预测效果和能力有限,而像Sora将整个视频通过扩散模型(Diffusion Model)一起生成,可以保证前后的连贯性和一致性达到最佳状态。
《知识分子》:这是通过什么技术或原理实现的?田渊栋:Sora采用了Transformer架构加扩散模型进行视频生成,它的做法是将输入的三维视频先逐帧转换为潜在的Token表示,形成一个Token序列,然后用Diffusion Transformer结构,从随机噪音开始,逐渐生成整个视频序列的所有帧的Latent Tokens表示。
这种做法的好处是它并不是逐帧预测,而是一次性生成整个视频序列,这种方法很有意思,现在看起来能保证整个视频长程的一致性。
《知识分子》:在人工智能的生态里,Sora处于一个什么位置?
田渊栋:每个工作在人们心目中的地位是不同的。有些工作是基础性的,而有些工作则是在拓展边界。我觉得Sora属于拓展边界的工作,它让人们认识到这项工作是可以实现的,就会有更多的人愿意在上面花时间,把它做得更好。
《知识分子》:即使是不在人工智能行业的人,对于2016年火爆的AlphaGo也记忆犹新。最近出圈的大模型ChatGPT和Sora,也得到了普通人的关注。作为一个从业者,对于AI发展的进程,您的内部观察是怎样的?
田渊栋:其实有很多水面下的工作没有被关注,所以大家会觉得AlphaFold、Sora都是技术上的爆发。实际上背后一直有许多技术工作在做,很多不错的工作也会在圈内受到关注,只是这些工作没有像Alphafold、Sora那么火。等到Sora这些成果火出圈了,大家才突然发现那些低调的技术工作对行业的贡献。
《知识分子》:所以说Sora并没有带来理论上的突破?
田渊栋:对,他们只是做成了这件事,告诉大家这个方向是可行的。以前的DeepMind也有相似的做法。通过堆大量的算力和人力,把现有的工作做scale up(增加模型、数据和算力的大小)做到极致,最后把结果做出来。
《知识分子》:文生视频模型还在努力达到人类常识水平
田渊栋:我看了一些视频,还是有些前后不一致的地方。你会发现在几只小狗走路的视频里,它们走到一半的时候,这些狗会慢慢融合在一起,或者说一个狗的尾巴突然变成另外一个狗的尾巴。或者一只猫在床上踩人的时候,这只猫突然会出现三只脚。
《知识分子》:Sora现在是否能够理解物理世界?
田渊栋:我认为这个问题的关键在于模型的理解程度。我们可能期望模型在某些情况下表现得像人类一样理解,但实际上还存在许多问题。正如我之前提到的那些情况,有些明显违反了人类的常识。
《知识分子》:如果在未来有更多数据,Sora能够抵达您说的这两种理解程度吗?
田渊栋:我认为可能需要一些更具挑战性的突破,类似于自动驾驶技术。最终,模型可能会在90%的情况下表现良好,但总会有一些情况,例如两个物体之间的碰撞或相互作用,模型可能无法很好地处理。这是因为世界上各种物体之间的相互关系是无限的,而且总会出现一些以前从未遇到过的情况。在这种情况下,如何让模型学习这些新情况是一个挑战。
《知识分子》:有人认为比起能够自主决策的AlphaGo,大模型的决策能力是一种倒退,您怎么看?田渊栋:这两者是互补的关系。AlphaGo更会做决策,但需要人类先设定好决策框架把围棋规则写入程序中。人其实不依赖外界的人帮他写入规则,如果是一盘棋改了规则或者改变了初始的棋子位置,棋手马上能适应并且下出很好的棋。对于AI来说,这可能意味着得要重新训练一遍,所以人的能力在这方面现在优于AI。
当然现在的大语言模型也开始有一些适应的能力了,比如说in-context learning,不用训练就能适应新的任务。
《知识分子》:在Sora出现之后,国内AI领域有一些反思的声音认为国内对AI的信念不够,在没有先例之前只敢做小规模的探索。您怎么看待这种说法?
田渊栋:容错性确实是个问题。追赶者往往会觉得我什么事情都要听,最好是到各种渠道听到别人怎么做的,我就跟着做,这样其实永远追不上别人。另外一点是心态上的问题,国内有些的公司可能确实资源不够,但更多时候问题出在想法上。很多公司第一的想法是我一定要追上前面的人,但是这个思路其实不对的,做研究不能天天想着追上前面的人,我觉得应该换种想法,想想我能不能做出我们这边有特色的东西。
《知识分子》:在美国有很多像OpenAI这样的公司吗?这类并不急于追求商业化,而是有着更宏大的目标,而且持续有资金支持它们的目标的公司。
田渊栋:是的,在美国有很多这样的公司。问他们在做什么的时候,他们会说要做AGI。也有很多公司不缺钱,找了一些大佬来投资,之后很长时间不干预很正常。相比之下,国内可能更加希望回报快一些,给了钱就希望立刻翻倍。
《知识分子》:Sora在国外的热度似乎没有国内这么高?
田渊栋:国内可能有一两个点特别火,突然间大家都在谈论这个问题,像Sora就是一个例子。相比之下,国外就比较多元,有的人就不管什么热门,他就好好做自己的,不会去跟着热点跑,所以相对来说热门不会有那么大的影响力。
《知识分子》:OpenAI的成立有9年了,一直在烧钱。国内也有一些AI领域的投资机构,但很少有坚持这么久的,甚至有投资多年的机构突然解散的。这一点还挺不同的?
田渊栋:对,这可能是中美之间的区别。在美国,公司对自己提出的承诺应该要遵守的,这从某种程度上来说是一个招牌,会持续不断地吸引人过来。如果因为公司的一些原因,导致原来做研究的部门的员工去做产品了,那样公司的声誉就会受到影响,比如说2014年的时候,微软突然把硅谷研究院裁撤了,这就导致很长一段时间微软失去了信誉,很多顶级的人不愿意过去了。
之前在公司比较艰难的时候,我们公司也问过我们(研究组)要不要去产品组,但我们都坚持要留着做研究,公司也不能把我们怎么样。这种坚持也是会给公司带来很大收益的,比如LLaMA就是让公司能够在关键时刻拿出来的成果。所以不会出现上面让你干什么,你就得干什么这种情况,还是有相当的自主性的。
《知识分子》:在美国,公司不遵守规则你可以选择离开,还有其他的选择。在国内,研究人员好像没有这么多选项。要么就进研究机构,要么就进高校,能够支持你做基础研究的公司并不多。
田渊栋:国内做人工智能的机构,整体上还是没有像美国这种规模这么大,提供这么多机会。最顶尖的研究员在市场上有各种选择,公司必须顺应这些研究员的选择,因为没有他们的工作,公司的估值就会下降。如果一些公司做出出格的事情,可能就招不到好的研究员了,那公司会迅速滑落到第二甚至第三梯队,这是公司不能接受的。
《知识分子》:大模型和Sora引起了各公司和机构复刻的热潮,可以说它们指出的方向是现在AI研究的主流吗?
田渊栋:肯定有很多人愿意去做。但并不是说硅谷所有人都愿意跟这两个方向,或者说愿意跟最火的方向。大模型确实很多人在跟进(包括我自己),可以算渐渐成为主流;但要是说Sora是主流,估计很多人都不会赞同的。在自己的方向上坚持很多很多年,这正是创新的源泉所在。