刚刚,OpenAI发布首个AI视频模型Sora,60秒的一镜到底,神级效果生成。网友纷纷惊呼AI视频要变天。
卷疯了卷疯了,短短十几小时内,OpenAI和谷歌接连发布核弹级成果。国内还没睡的人们,经历了过山车般的疯狂一晚。就在刚刚,OpenAI突然发布首款文生视频模型——Sora。简单来说就是,AI视频要变天了!它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且生成长达1分钟的超长视频,还是一镜到底那种。
Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。60秒的一镜到底,视频中的女主角、背景人物,都达到了惊人的一致性,各种镜头随意切换,人物都是保持了神一般的稳定性。
OpenAI究竟是怎么做到的?根据官网介绍,「通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。」显然,这个王炸级技术有着革命般的意义,连Sam Altman都沉迷到不能自拔!他不仅疯狂发推安利,而且还亲自下场为网友生成视频:你们随意来prompt,我一一输出。
多项技术破纪录。借助于对语言的深刻理解,Sora能够准确地理解用户指令中所表达的需求,把握这些元素在现实世界中的表现形式。也因此,Sora创造出的角色,能够表达丰富的情感!它所制作出的复杂场景,不仅可以包括多个角色,还有特定的动作类型,以及对对象和背景的精确细节描绘。
Sora还能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。要知道,以前的AI视频,都单镜头生成的。而这次OpenAI能在多角度的镜头切换中,就能实现对象的一致性,这不得不说是个奇迹!这种级别的多镜头一致性,是Gen 2和Pika都完全无法企及的……
最最最可怕的一点来了,Sora身上,竟已经有了世界模型的雏形?通过观察大量数据,它竟然学会了许多关于世界的物理规律。下面这个片段太令人印象深刻了:prompt中描绘了「一个短毛绒怪物跪在一支红蜡烛旁的动画场景」,同时描述了怪物的动作和视频的氛围。随后,Sora就创造了一个类似皮克斯作品的生物,它似乎融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。
技术介绍。Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。
重塑视频行业。虽然,文本转视频技术要威胁到传统电影制作,可能还需要很长时间——你无法通过简单地将120个Sora生成的一分钟视频拼接起来制作出连贯的电影,因为这些模型无法确保内容的连续性。但是,这并不妨碍Sora和类似的程序彻底改变TikTok等社交平台。