Sora模拟视频中,在海中飞舞的蝴蝶犹如实景拍摄。最近,OpenAI发布的文生视频大模型Sora引发关注。它的技术配方、其所带来的行业影响,以及“眼见不再为实”的全新风险,成为全球关注的话题。人们不禁要问:从ChatGPT到Sora,人工智能(AI)大模型是如何实现迭代进化的?
现实生活中,我们每个人都在通过有价值的内容组合来进行交流、设计和创作。唐代诗人卢延让对“吟安一个字,捻断数茎须”的感叹,讲的就是诗人从百千个候选字词中反复对比、精心挑选出一个合适的单词,从而写就一篇传世之作。南宋诗人陆游所说的“文章本天成,妙手偶得之”,惊叹的就是让词汇恰如其分地出现在了其应该出现的位置,形成语意连贯、文气贯通的天然佳作。
那么,从ChatGPT到Sora,人工智能(AI)大模型何以合成出有意义、有价值的内容?Sora所呈现出的“超级涌现力”将把AI引向何方?2017年,谷歌公司发表了一篇题为《注意力就是你所需的一切》的论文,提出了一种以自注意力机制为核心的神经网络架构Transformer。只要给定足够多的句子,Transformer就可学习句子中单词与单词之间的共生关联关系。
比如,“项庄舞剑,意在沛公”这样的句子在若干篇文章中出现,那么Transformer就会认为“项庄”“舞剑”“沛公”等单词之间存在共生关系,于是就在它们之间建立关联,这种关系被称为“注意力”。
可以想象,在对海量语料数据库进行学习的基础上,人工智能算法就可以建立起一个巨大无比的单词共生关联网络图。此后,每当人们给定一个单词,算法就可按照要求,从单词共生关联网络图中找到下一个与之关联关系最密切的单词,作为给定单词的后续单词——就这样一个个接缀合成出句子,最终达到自然语言合成的目的。因此,OpenAI公司CEO山姆·阿尔特曼曾说:“预测下一个单词是通用人工智能(AGI)能力的关键。”
为了让Transformer从预测下一个单词到具备“说人话、做人事”的能力,研究者提出了一种被称为“提示学习”的方法。在提示学习中,人类设计所谓的“提示样例”,来教人工智能模型学习如何更好地说话。比如,“我很喜欢这部电影,因为电影呈现的剧情很精彩”“猫比大象要小,因此大象比猫更大”就是典型的提示样例。一旦设计提示样例后,算法将样例中后半句某个关键单词“移除”,然后让模型去预测被移除的单词。
如此不断学习,模型就得以知晓在给出前半句后,如何更自然地合成后半句话。
Sora这次带来了多重惊喜:其一是具备合成1分钟超长视频能力。此前的文本生成视频大模型无法真正突破合成10秒自然连贯视频的瓶颈;其二是Sora视频是对自然世界中不同对象行为方式的“昨日重现”,比如能有效模拟人物、动物或物品被遮挡或离开/回到视线的场景,因此有媒体认为Sora是数据驱动下对物理世界进行模拟的引擎。
Sora对长时间视频合成的能力,来自Transformer能够处理长时间信息中最小单元之间的自注意力机制。例如,同样是基于Transformer的GPT4允许处理3万多个tokens(机器模型输入的基本单位),而谷歌最近发布的多模态通用模型Gemini 1.5 Pro就把稳定处理上下文的上限扩大至100万个tokens。
Sora之所以能对物理世界规律进行模拟,一个可能的原因在于大数据驱动下,人工智能模型体现出一种学习能力,即Sora通过观察和学习海量视频数据后,洞察了视频中时空子块单元之间所应保持的物理规律。其实,人类也是基于对自然界斗转星移、节气变迁和昼夜交替,以及微观物质世界物质合成与生命演化的观测,推导出各种物理规律。
虽然Sora很难像人类一样,将物理世界中诸如牛顿定律、湍流方程和量子学定理等,以数学方程罗列于人工模型中,但Sora能记住时空子块单元之间应遵守的模式,进而利用这些模式约束时空子块的组合。