大模型Sora带来的变革与思考

往期回顾

上一版下一版

总第1840期

上一期下一期

语音阅读：

影视产业新视角：

大模型Sora带来的变革与思考

作者：司若庞胜楠时间：2024-02-28

放大

缩小

默认

2月16日，OpenAI公司发布了其首个文生视频模型Sora，此消息一出瞬间占领科技产业研究领域头条，受到了科技、媒体和影视等多领域专业人士的关注，不少人发出感叹影视产业遇到了来自生成式人工智能技术的又一次巨大挑战，而人类离元宇宙的世界也又更近了一步。事实上Sora不是第一个专注于文生视频技术的大模型，在过去的一年中以Runway等为代表的文生图模型已经令影视创作者感受到了震撼，但是与能够一次生成60秒以上高质量视频的Sora相比，在视频生成的效果和对物理世界的模拟程度上面都显示出巨大的差距。根据目前发布的版本，Sora可以有效模拟短距离和长距离中人物和场景元素与摄像机运动的一致性；与物理世界产生互动；在主题和场景构成完全不同的视频之间创建无缝过渡，并能转换视频的风格和环境；扩展生成视频，向前和向后延长时间，实现视频“续写”。除了可以实现文生图外，Sora还可以通过图像和视频的方式生成视频，并兼具文生图的功能。上述功能未来可以广泛应用于视频剪辑和特效制作等影视产业流程中，为影视产业带来进一步变革。

◎ 生成式人工智能在视频领域的发展

在Sora诞生之前生成式人工智能已经在视频领域取得了显著的突破和进步。Make-A-Video通过配对文本图像数据和无关联视频片段的学习，成功地将文本转化为生动多彩的视频。这一成果不仅加速了文本到视频模型的训练过程，还消除了对配对文本－视频数据的需求。其生成的视频在美学多样性和创意表达上达到了新的高度，为内容创作者提供了强大的工具。

Runway AI视频生成器则以其易用性和高效性而受到广泛关注。通过简单的界面操作，用户就能快速创建出专业品质的视频作品。其自动同步视频与音乐节拍的功能更是大大提升了最终产品的观赏体验。随着Gen-1和Gen-2等后续版本的推出，Runway AI在视频创作领域的实力不断增强，为多模式人工智能系统的发展树立了典范。

PIKA和Lumiere的发布进一步推动了生成式人工智能在视频领域的应用。PIKA以其对3D动画、动漫等多种风格视频的生成和编辑能力，为用户提供了更加丰富的选择。而Lumiere则通过引入时空U-Net架构等创新技术，成功实现了对真实、多样化和连贯运动的视频的合成，为视频编辑和内容创建带来了革命性的变革。

生成式人工智能在视频领域的发展正呈现出蓬勃的态势。这些先进的系统不仅提升了视频创作的效率和质量，还为创意表达提供了新的可能性。但是目前即使是最先进的Sora，在技术方面依然具有很大的局限性，例如无法准确地模拟很多基本的交互物理特性，在涉及到物体状态改变的交互方面表现不足，经常会出现一些不该出现的物体或运动不一致的情况等。但是相信随着生成式人工智能技术的不断迭代，上述问题会在很短时间内得到解决。虽然Sora给影视产业带来了巨大的冲击，但是影视创作者也应该理性地去看待它将对影视产业产生的影响。

◎ 生成式人工智能对影视产业的影响

生成式人工智能依然无法取代影视创作的主体性。首先，以Sora、ChatGPT为代表的生成式人工智能模型都是基于大量来自人类创造出的作品训练的结果，因为它所生产出来的所有的一切在其本质上仍然是基于人类劳动的过程。其次，在人工智能技术不断迭代的过程中，其主要的目的依然是对人类及人类所处的真实世界的模仿，如果说电影是一种对人类世界的加工和虚拟，那生成式人工智能则是对这种虚拟的虚拟，其核心追求依然是拟人化的。

生成式人工智能对影视创作的影响变得更加具象。首先体现在虚拟角色真实感方面，借助新技术，影视场景中的虚拟角色更加真实，尤其是可以让虚拟角色完成更多涉及与真实世界交互的复杂动作。未来虚拟角色可以自主地做出正确的选择，模拟真实的行为。其次体现在影视特效效果与效率的“双效提升”方面，一方面对物理世界的精确模拟能够增强画面效果，提升观众的体验感，另一方面文生视频、图生视频和视频生视频技术的发展对提升影视制作的效率具有重要的推动作用，尤其是在模型制作、模型渲染和优化等领域可以发挥重要作用。最后，基于目前的技术，人工智能已经可以模拟生成大量不同的角色和场景，在电影《流浪地球2》中，图恒宇让去世的女儿丫丫可以以数字生命体的形式存在于世界中，Sora所带来的新变革甚至让人们对这一科幻电影情节有了更多真实的联想。这些角色和场景可以用于电影的分镜头创作和动画预演阶段，提升影视创作的效率。

生成式人工智能进一步降低了影视创作的入门门槛，提高了影视创作的质量下限，让更多的普通用户能够在具有一定的审美的基础上去创作出质量更高的作品。在短视频时代，普通用户除了能够使用手机去拍摄生活当中的点点滴滴之外，也可以借助人工智能的力量将自己的想象以更好的可视化的方式呈现出来。正如本雅明在《机器复制时代的艺术作品》中提到艺术作品所独具的是“灵韵”，生成式人工智能可以将更多蕴含在普通人想象中的“具象化”，为世界提供更丰富的作品。

生成式人工智能技术为视频作品媒介化注入了新的活力，进一步推动“社会视频化”进程。近年来，短视频已经深度融入人们的日常生活，成为表达、交流和获取信息的重要渠道。数字技术的持续革新，使得“社会视频化”成为近年来社会发展的显著趋势。影视作品，尤其是短视频，正逐渐承载起更多的媒介化功能，成为人们获取和传递信息的关键手段。过去，人们的关注点主要聚焦在以ChatGPT为代表的生成式人工智能对文本世界的深刻变革。然而，Sora的出现能进一步降低以短视频为代表的视频媒介的进入门槛，提升其作为媒介的通用性和可达性。此外，以Sora为代表的视频大模型的出现极大地降低了视频输出成本，打破了元宇宙发展的核心桎梏，为元宇宙等前沿领域的未来发展描绘出了充满无限可能的美好蓝图。由此可见，生成式人工智能技术的飞速发展正在深刻改变着视频作品的媒介属性，推动“社会视频化”进程迈向新的高度。

◎ 面对生成式人工智能冲击，影视创作者的应对策略

影视创作与生成式人工智能的碰撞，为影视创作注入了新的活力和可能性。这种结合不仅改变了影视创作的工具和方法，更在深层次上影响了创作的思维方式和艺术观念，影视创作者们必须积极应对这一冲击，采取有效的策略来保持创作的独特性和创新性。

首先需要明确认识到，生成式人工智能本质上是一种技术的延伸，就像为人类安装上一双机械臂，当影视创作者面对这项技术的发展时，需要做到的第一点就是去了解它，接触它，去了解其背后的逻辑。无知带来恐惧，模糊带来焦虑，当对新技术背后的生成的逻辑有足够的认识的时候，恐惧感自然会消失。

其次，创作者们应该去充分地利用它，如何利用挖掘人工智能能够给影视产业带来的一些积极的作用，然后迅速地将其融入自己的创作过程当中，提升创作效率。

第三是从自己的角度去训练它，改进它，让人工智能成为创作者们助手。例如，除了从无到有创造新作品外，人工智能技术还可以应用于老电影的修复和老照片的修复过程当中，在对人类原有创作进行超分辨率和重新上色的过程，本质是一种以人类为主体、AI作为重要参与者的再创造。

第四是保持足够的警惕，人工智能技术一方面能够丰富人们的创作思维，为人们提供更多的选择，但同时它也像算法推送一样，会限制了人类思维和创造，让创作者迷失在与AI共建的茧房中，人类创作者可能会沦为“配角”甚至“观众”，失去对作品的掌控力和影响力。艺术作品所独有的“灵韵”是从人类的朴素的情感与人类世界不同实体之间交互的情感当中所迸发出来，这是机器所无法取代的。人工智能出现是为了提高工作效率，而非让人类懒于去思考，过度依赖AI可能会导致创作的同质化和缺乏个性，失去独特性和人文气息，变成千篇一律的“工业产品”。

最后，人工智能的应用还涉及诸多关于版权和伦理的问题，创作者在应用中不能单纯地以效率或者是以利益为先，需要在尊重艺术创作、尊重伦理、尊重法律的基础上去合理运用人工智能技术，这样才能够确保影视产业在人工智能技术的助力下健康发展。

（司若，清华大学新闻与传播学院教授，影视传播研究中心主任；庞胜楠，清华大学影视传播研究中心助理研究员，博士后）

手机扫一扫阅读