别吹Sora了，影视行业死得没那么快

老李头 / 2024-02-22 15:01151658

自从OpenAI公布全新的生成式人工智能模型Sora之后，可谓是“一石激起千层浪”，相关的讨论一直没有停止。

关于这个号称“只要输入文本指令，就能输出60秒视频”的新工具，人们感到期待、焦虑、恐惧……共同组成了一幅巨大的“Sora乱象图”。一方面，各种标签上写着“该视频由Sora生成”，但实际上是网友制作的搞怪视频成为了“整活”的流量密码，让不少网络乐子人收获了欢乐。

640 (3).gif

网友将搞怪视频打上“该视频由sora生成的标签”

另一方面，虽然Sora并没有开放使用，但网络上却出现了一大批“培训机构”，利用行业焦虑和信息不对称，打起了收割韭菜的算盘。一个自称清华博士的卖课博主，入门AI课达到了199元一份，光是在视频号里，就卖出了520多份。还有人扒出，这门AI课他一年售出了25万套，销售额将近5000万。于是网友们纷纷阴阳怪气地称他为：唯一可以与奥特曼平起平坐的AI巨头。

图片1.png

网友制作的梗图

Sora究竟是什么？

Sora，源自日语“空（そら，发音为sora）”，不仅指代天空，还象征着无垠的空间和无限的可能性，从而引申出自由的寓意。在OpenAI关于Sora的介绍中，首页就可以看到无数在空中自由飞翔的纸飞机，象征着Sora模型的自主性和创造性，反映出“空”所蕴含的自由理念。

Sora介绍页面

关于Sora生成的各种视频我想大伙应该都已经见得不少了，相信很多人在看完视频之后都会有一个疑问：Sora是如何生成视频的呢？

在OpenAI放出的技术报告中是这样描述Sora的：Sora是一个“扩散变换器（Diffusion Transformer）”。与传统的变换器（包括编码器和解码器）在处理方式上存在类似之处，但其处理的并不是文本标签，而是被称为“补丁（Patches）”的视觉数据。

图片2.png

补丁（Patches），其实就是大模型在处理视频和图像数据时，将视觉数据分解成小块或小部分的一种方法。通过将视频压缩到一个低维度的潜在空间，把空间的标识分解成为多个补丁，以此来让模型更好地处理和生成高质量的视频和图像内容。这种方法的优势在于能够允许模型处理不同分辨率、持续时间和宽高比的视觉数据，为视频和图像生成提供了更大的灵活性和能力。

图片3.png

视觉编码过程

而“扩散变换器”则是一种结合了扩散模型和变换器架构的技术，能够通过利用变换器处理数据间复杂关系的能力，以及扩散模型逐步精炼数据的策略，来生成或预测视频和图像中的“干净”补丁，逐步从包含噪声的数据中恢复出干净的数据，来生成图像或视频。

我们举个简单的例子，假如我们现在有一张狗狗的照片，我们可以一步步给这张照片增加噪点，让它变得越来越模糊，最终会变成一堆杂乱的噪点。如果我们把这个过程倒过来，对于一堆杂乱无章的噪点，我们同样可以一步步去除噪点，把它还原成目标图片，而扩散模型的关键就在于学会逆向去除噪点。

图片4.png

事实上，此前大火的Midjourney和Stable Diffusion的图像和视频生成器就同样基于扩散模型，不过不同的是Sora能够通过让模型一次预测多帧画面，确保了即使被摄体在离开视线后仍然能保持不变，也使其展示出了对影视拍摄语法的全新自发理解，不仅可以跟随对象移动镜头，还可以在移动镜头转换角度的时候，仍然能够保持画面的合理与完整。

Sora另一个很强的地方在于，它“继承”了OpenAI对文本的理解能力，能够根据提示词生成高质量的图片和视频，并且能够对视频进行向前或向后的扩展，例如，在这个官网展示的这个视频中，Sora能够基于同一个视频开头进行拓展，延伸出不一样的结尾，或从不同的开头引入，最终得到同一个结尾。

图片5.png

三个视频开头最终都会走向同一个结尾

不过事实上，OpenAI的野心远不止于此，Sora不仅是一个创造性的工具，它实际上还是一个基于数据的复杂模拟系统，能够模拟现实或想象中的世界。它通过学习如何正确地渲染场景、模拟物理行为、进行长期推理和理解场景的含义，从而创建出逼真的 3D 场景和动画。

这就使其能够创造出很多现实中不存在的视频，例如在下面这个视频中，提示词为“两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频”。这样的要求不仅需要Sora生成一个逼真的3D模型，还需要让这些模型根据物理规则动画化，并模拟液体的动力学，还要使用高级渲染技术来实现照片级的真实感，即使场景的语义在现实世界中并不存在，但引擎仍然能实现我们期望的正确物理规则。

这一点虽然目前Sora仍有缺陷，但确是一个很有前景的目标，通过建立这样一个复杂的模拟系统，我们就能够对真实世界进行建模和预测，甚至是构建起真实世界的数字交互。无论Google、OpenAI还是马斯克的xAI，终极目的都是构建起世界模型，就比方说电影《流浪地球2》里面的MOSS，就是一个强人工智能的化身，能够通过构建真实世界模型，再加上强大的算力，来推演不同选择导致的结果，达到预测的目的，这或许就是很多人眼中AI的终极形态了吧。

不过无论如何，这些都是后话了。

图片6.png

Sora真会砸掉整个影视行业的饭碗？

事实上，人工智能从诞生的那一天起，就常常会成为很多人幻想中的“假想敌”，而随着ChatGPT等新工具的发展，对于AI的遥远恐惧渐渐演变成了近在眼前的对饭碗的深深担忧，在Sora发布后更是如此。

单就Sora生成视频的能力来看，首当其冲的必然是影视从业者。毕竟传统方式制作一段1分钟的视频成本非常高，除了场景、灯光、演员，还要提前沟通分镜、找好角度、考虑好摄像机与演员的走位等。如果再需要一些特殊因素，例如转瞬即逝的光影、理想的天气条件等，那就更要赌一赌运气了。

而这一切在Sora这里都不是问题，只要通过简单的提示语句，就可以直接生成视频，而且相较于之前的AI工具，无论是视频的时长、画面精细度，还是细节的完整性，甚至是多镜头拍摄，Sora都可以用“碾压”来概括，很明显将会为相关从业者带来更大影响。

图片7.png

网友制作的梗图，好莱坞经典标识“HOLLYWOOD”变成了“SORAWOOD”

行业调查公司CVL Economics不久前发布的一项对好莱坞行业领袖的调查显示，目前忧虑的情绪正笼罩着整个好莱坞，36%的受访者表示生成式AI已经减少了他们公司的日常工作技能需求，72%的受访公司都是生成式AI工具的最早采用者。

而在这其中还有75%的受访者表示，生成式AI工具已经促使他们业务部门削减与合并相关的工作岗位。还有人预计，未来三年好莱坞总计会有超过20万人的工作岗位会受到AI冲击，其中尤其是视觉特效、音效师、画图师等后期工作岗位。

图片8.png

事实上，受到影响的并不只有影视行业从业者。面对来自Sora的“降维打击”，AI视频领域的创业者中，有的如Runway CEO克里斯托瓦尔·巴伦苏埃拉一样，做好了“Game On”的准备，有的如Pika创始人郭文景一样，开始筹备对标Sora的新产品，也有人如Stability AI CEO埃马德·莫斯塔克一样，不由感慨“阿尔特曼真是一个魔术师”，并将Sora视为AI视频界的GPT-3时刻。这一次，很多人真的感受到了危机感。

风物长宜放眼量

虽然Sora确实很劲爆，但如果因此而过分焦虑也大可不必。一方面由于Sora在其生成的视频中仍然存在很多经典的“灵魂错误”。例如在很多视频中，人物、动物会凭空消失、变形或者变出分身；还会出现一些违背物理常识的“闹鬼”画面，像人吹过的蜡烛没有变化、穿过篮筐的篮球、悬浮移动的椅子等。

Sora生成的视频中，老人吹蜡烛前后火苗纹丝不动，略显诡异

另一方面也在于，AI在视频生成的逻辑与人类的创作逻辑是截然不同的，这从根本上决定了Sora并不能真正辨别故事的好坏。毕竟影视是从人的情感出发，最后也以触动人类情感为目的，也许随着生成技术的发展，其视频逻辑、质量和对真实世界的模拟程度会有更高的提升，但却不能代替人类在影视制作过程中起到的作用。还有很多人认为，越是机器生成的东西，很多时候会愈发让我们感受到人类之作的珍贵，例如带着“锅气”的食物很多时候优于预制菜、凝聚了工人心血的器具虽然精确度不如机械但却有更多的“温度”……这样的例子可谓俯仰皆是，更何况是在影视这一最能体现人类情感、囊括各种艺术门类的综合艺术呢？

事实上，除开影视剧作、剧情设计等方面的元素，即使仅从视频呈现的而言，AI生成的内容在信息量上并不能与真实拍摄相比，例如在很多电影场景中，人物的表达、语气、表情的背后，不仅是各种细腻的人类情感，举手投足之间积累的是半生的经历、情绪与风土人情的总和。

这些内容虽然看似并不显眼，但却时时刻刻都在传达很多信息，正是这些内容才真正组合成了每一个与众不同的人，也经由各种反应、互动形成了人物之间情绪的流动，也正是这些细节的变化，在无声无息地影响着我们的情绪，为我们带来感动，这是生成式AI很难做到的，或许这才是很多AI生成视频看起来“没有灵魂”的根本原因。

几乎全片都由对话构成的经典电影《爱在黎明破晓前》

此外，在影视行业中使用AI早已不是新鲜事，此前曾在好莱坞横扫最佳影片、最佳导演等7大奖项的《瞬息全宇宙》就曾使用Runway的AI视频工具，去年21世纪福克斯已经与IBM沃森合作，用AI工具为关于AI主题的恐怖片《摩根》制作预告片，迪士尼旗下的漫威则完全使用AI制作了《秘密入侵》的开头动画。

不久前，NVIDIA创始人黄仁勋曾在一次参访中表示，“在过去的10年、15年中，几乎每个人都会告诉你，学计算机对孩子来说至关重要，每个人都该学习如何编程。但事实上，情况完全相反，我们的工作是创造计算技术，使得任何人都不再需要编程，使得编程语言变成人性的，现在世界上每一个人都是程序员，技术鸿沟已经完全弥合。”

图片9.png

而这似乎成为了AI时代的真实写照，无论ChatGPT-4也好、Sora也罢，通过借助日新月异的新技术，不懂编程语言的人也能够制作软件程序，没有影视相关技术背景的人也能够从容地制作自己的视频，这无疑将会进一步，激活新的产能，促进行业的发展，甚至是让人和人之间产生新的链接，这或许才是生成式AI的更大意义。

我们有理由期待，未来必然会有更多的AI技术和电影或电视剧制作的结合与创新，也许会出现一些我们从未想象过的精彩作品，给我们带来更多惊喜。

点个赞6200

别吹Sora了，影视行业死得没那么快

发表评论注册|登录

热点资讯

好物推荐