解读OpenAI Sora文生视频技术原理

2月16日，OpenAI发布了文生成视频模型Sora，可根据文字提示生成60秒视频，输出的视频显示了令人惊叹的细节，效果堪比影视CG。在逼真的场景背后，它的底层原理是什么？本文依据OpenAI发布的技术综述进行解读——生成视频事小，模拟世界事大。

OpenAI Sora文生视频（图像看作单帧视频）一放出就炸翻整个AI圈，也是ChatGPT掀起GenAI热潮时隔一年后，OpenAI再次史诗级的更新。OpenAI随后公布的技术综述[1]，难掩其勃勃雄心：视频生成模型作为世界模拟器。

笔者春节前原计划整理一下对Google Lumiere文生视频的认知，多个因素遗憾推迟。对比看两者大的技术方向均选择了扩散模型，却也有许多关键细节不同。恰好可以借着OpenAI技术综述来提纲挈领，一起梳理一下，为什么笔者觉得这是又一史诗级的更新。

Sora和Lumiere等文生视频模型其实就是大模型从侧重空间关联转向了加强时间关联。也就是从笔者上图中“非时间维度子空间”的信息提取，转向侧重学习和表征“状态空间的动态性”及处理“非马尔可夫性”。通过海量视频中对时空碎片的动态关联的学习，目前看文生视频大模型可以学到可视层面或者表面意义上的SSM，此种意义上，SAMBA之类的SSM模型应该可以殊途同归。

然而仅仅从时空碎片的表象上是获取不到足够捕获其内在规律的信息的，未来人类科学家们可以将他们长期殚精竭虑探索的领域，包括但不局限于物理化学生物等等学科的范畴，可视化为图像或视频，交给视频生成大模型去学习，辅助发现其中蕴含的潜在规律。Sora开了一个好头，或者说史诗级的把视频生成模型泛化成了物理引擎。把LLM GPT加视频生成模型Sora推到实时，就接近或达到人类的感知水平了。

今后重要任务是处理好感知到概念体系的认知跨越，也就是处理好生成过程采样和变分推断的合理性。