关于Sora,我有十个小白问题

作者: malt

来源: 果壳

发布日期: 2024-02-18 20:18:56

本文探讨了Sora AI视频模型的功能和影响,分析了其在影视行业中的潜在变革,以及公众对AI技术发展的反应和担忧。

Sora在日语中是“天空”的意思,引申含义还有“自由”。OpenAI在Sora官方介绍页里,你能看到在无数空中自由飞翔的纸飞机。它们看起来行动自主、探索自由,如果OpenAI最终造成AGI(通用人工智能),应该就是如此希冀的吧。Sora是一个AI视频模型,你光打一串文字,就能生成一个以假乱真的纯AI原创视频。

除此之外,你还可以输入图片转成视频,用视频再转成新的视频……仅仅只有AI生成视频样片以及技术论文的释出,Sora已经在传播层面引发“地震”,不少人高呼影视行业变天了,有人甚至把美国电影工业的象征好莱坞改成了这样。

人们吹爆它“炸裂”、“史诗级”、“现实不存在了”,根据是啥?

最直观的,有些样片太真实了——人物的脸没那么“恐怖谷”,物体运动轨迹也很自然,画面的清晰度和顺畅程度,都像我们用手里的设备拍出来:这太像我们用GoPro手持拍摄的画面了!Sora相比竞品,Sora是“灭霸”级别。之前主流的AI生成视频都在4到16秒,还“卡成PPT”,而Sora弯道超车,直接将时长拉到60秒。后者的画面表现,已经媲美视频素材库,放进视频当空镜完全可行。

这让人们懵圈,只能感慨技术的发展有迹可循,技术的突破节点却较难预测。

都嚷嚷着行业变天,人类下岗,Sora除了第一眼好,还有啥惊人玩法?多机位:Sora生成自然融合两种完全不相干的场景:Sora生成视频还可以往前扩展,向后扩展;如果你对视频的局部(比如背景)不满意,直接更换就可以了。Sora还能直接以文生图,甚至还可以将图片转成动态视频,而且还不是目前流行的“小动物跳舞”呈现的粗糙效果:Sora生成。

把《三体》输进去,能直接出片吗?我知道你很急,但你先别急。首先,目前就Sora所呈现的,虽然有多机位效果,但都是单一情节单一镜头。而《三体》有多人视角,叙事复杂,靠AI生成一条龙搞定并不现实。据一些影视行业从业者所说,目前AI生成虽然高效,但可控性不够,目前主要用在demo制作、概念设计、分镜编排等环节。

看到这里,你有一个大胆的想法?打住!OpenAI正在评估Sora被滥用的风险,所以目前还没开放给公众,只给一批在误导信息、仇恨内容和偏见等领域的专家,以及创意人士使用。

每次技术狂潮,打工人最先焦虑,这次咋整?记住一点,贩卖焦虑的,都是为了赚你的钱。虽然Sora都还没公测呢,但已经有人开始卖付费教程了。目前的Sora也有“翻车”生成,如果这个能安慰到你的话!SoraAI技术推陈出新太快了,你刚在Pika上学了几个月怎么写提示词,结果“灭霸”Sora出现,此前积累的工具经验可能瞬间失效……既然如此,不如先别沉迷研究工具,而是在底层创作上多加操练?

我对被取代恐惧,对AI变得更黑箱也害怕。继文字(GPT系列)以及画像(DALL·E)后,OpenAI这次又在视频赛道“遥遥领先”……但这家将AI安全奉为初心的公司,在技术公开上却越来越不open了,有人戏称其为“ClosedAI”。这次Sora发布,OpenAI现任CEO Sam Altman在X上“在线接单”,帮网友生成视频,结果有人给了这样的提示词,guess what,Sam拉黑了他。

以后真分不清现实和AI生成了吗?眼下有人让Gemini 1.5观看并分析以下这个Sora生成视频,Gemini指出:樱花一般在春天开放,那时不下雪;雪下得太均匀了;虽然是下雪天,但人穿得很单薄。于是,AI判定这个不是真实影像。还得用魔法打败魔法啊!

为什么就OpenAI做出来了?

因为OpenAI有GPT和DALL·E的成功经验,在以往的技术范式之上,他们做出了新东西:不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。生成视频效果如此好,也因为Sora能更好地理解用户给的提示词,OpenAI是怎么做的呢?

根据官方的说法,他们利用DALL·E 3的re-captioning功能,给训练用的视频素材都加上了高质量文本描述,表示这样可以提高输出视频的整体质量。另外,你给的简短描述词,AI收到后会进一步扩写,再交由Sora生成。更重要的是,Sora是一个Diffusion Transformer,Transformers被证明可以在语言建模、计算机视觉和图像生成等都能有极好性能。

视频模型的训练很烧算力吧,OpenAI耗得起吗?大概一周前,Sam Altman宣布OpenAI启动“造芯”计划,因为目前OpenAI每天生成约1000亿个单词,需要大量的GPU(图形处理器)芯片进行训练计算。他希望筹得7万亿美元。这个天文数字,不仅相当于全球GDP的10%,等同于2.5个微软、3.75个谷歌、4个英伟达、7个Meta,以及11.5个特斯拉的市值。

UUID: e6019a34-2180-4215-b8d5-c67b0e643df0

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2024/果壳_2024-02-18_关于Sora,我有十个小白问题.txt

是否为广告: 否

处理费用: 0.0053 元