服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

Sora真的能撼动影视制作吗?

日期: 来源:影视产业观察收集编辑:影视产业观察

又是OpenAI。这家公司于2022年11月推出的AI聊天机器人程式ChatGPT惊艳世界,引领了大语言模型和生成式AI(Generative AI)产业的蓬勃发展。而在2月16日,该公司的文本到视频(text-to-video)AI模型Sora横空出世,再次吸引了全世界的目光。

各种狂热的预测接连不断,不同程度的惊叹、忧虑、赞扬与失望也纷纷而至。但毫无疑问的是,如果单从输出效果来看,OpenAI的Sora是迄今为止最令人印象深刻的视频扩散模型(video diffusion model)。比起Runway的Gen-2和Pika等已公开的类似AI工具,Sora在从文本到视频的生成能力上有了飞跃式的提升。

包括部分影视行业从业者在内的不少人认为,Sora的出现标志着一个新的里程碑,将会极大地冲击以好莱坞为标杆的全球影视行业。而业内权威媒体《综艺》(Variety)则为这股热潮注入了一剂冷却剂,称Sora还远不能“取代”好莱坞。

“Sora确实在生成逼真内容方面取得了巨大的成就,可以在高端娱乐(high-end entertainment)中发挥作用。但如今,创作者仍然要求对表演和场景拥有完全的控制权,所以视频扩散模型离它们能够真的生成好莱坞影视内容,还有很长的路要走,” AI公司Metaphysic的首席执行官兼创始人汤姆·格雷厄姆(Tom Graham)对《综艺》的记者说。该公司通过AI技术,让汤姆·汉克斯(Tom Hanks)在米拉麦克斯影业的新片《这里》(Here)中成功“减龄”,也因此备受业界瞩目。

Sora的先进体现在哪里?

Sora与Runway和Pika等其他视频扩散模型工具所提供的功能基本相同,主要聚焦于视频生成和视频编辑。其中包括基于文本提示(text prompt)生成新的短视频,基于2D图像生成视频(例如,使图像动画化),修复(替换或插入新的视觉元素)和扩展(将镜头延伸到其原始框架之外,并用相关内容填充)。

但Sora在以下三个方面实现了突破:

一是视频质量和逼真度。与其他模型的输出片段相比,Sora生成的视频图像保真度明显更高,整体质量也明显更好,而且还能围绕同一主体实现远景、中景、近景、特写等不同镜头的切换。在Sora公布的几个视频示例中,有一段栩栩如生的史前猛犸象影像,几乎完美体现其文本提示的场景:“几只巨大的、毛茸茸的猛犸象,踩着白雪皑皑的地面走近,风吹动它们身上的长长毛发,远处是白雪覆盖的高大树木和雄伟山脉,午后的光线营造出温暖的光芒”。

Sora生成的猛犸象群视频截图

二是视频的长度。Sora的视频输出可以长达一分钟,同时保持与文本提示的一致性。而在其发布之前被认为是业内领先的Runway的Gen-2,在2023年8月的更新中仅仅可以生成最长18秒的视频,8月之前的视频输出时长只有4秒。

三是时空一致性。通过让模型一次接受多帧画面并进行学习和分析,Sora可以解决“确保主体即使暂时消失在视野之外也保持不变”的问题,由此带来了延长生成的视频长度的可能性。重复使用相同的提示措辞或条件参数进行生成,永远不会得到相同的结果,这是生成式AI自带的特性。因此Sora的这种“扩展”功能可以从一个输出到下一个输出实现人物角色或对象的连续性,从而让生成更长的AI叙事成为可能,在理论上为那些想要创建由多段视频拼接而成的AI生成式影片的人解决了痛点。

这些改进的出现是基于两大技术革新——时空补丁(Spacetime Patch)技术和扩散型Transformer(Diffusion Transformer,简称DiT)架构。它们让Sora超越了单纯的视频生成模型。正如OpenAI公司所说,Sora的研发目标是成为一个“世界模拟器”(world simulator),通过对真实世界的模拟,实现像人类一样的、对世界全面而准确的“认知”。而OpenAI也发现,随着训练计算量的增加,Sora输出的视频样本质量会得到提高,现已具备模拟现实世界某些属性的能力。

Sora要被实际应用到影视行业

还有哪些阻碍?

首先是连贯性和一致性的问题。虽然前面提到Sora已经可以模拟现实世界的某些属性,但很明显,Sora对物理规则的“理解”还不够透彻。例如,在一段演示视频中,装着红色液体、即将坠落的玻璃杯还未破裂,液体已经洒了一桌;在另一段视频中,一个人在跑步机上锻炼,然而跑步的方向是错误的;还有一段视频跟踪蚂蚁在巢穴内的爬行,仔细观察,不难发现视频中的蚂蚁只有四条腿……

Sora的“玻璃杯碎裂效果”视频演示

其次是可控性。正如前文中Metaphysic的首席执行官汤姆·格雷厄姆所说,创作者,尤其是好莱坞的创作者们,需要百分百的掌控度。到目前为止,无论是Sora还是其他生成式AI工具,都没能为创作者提供足够的控制条件和精确度以推导和掌控它们的输出效果。这意味着在短期内,AI工具其实会比传统的工具和方法更加受限。虽然随着新的控制参数被逐渐添加进来,情况似乎有所好转,但这些改进的效果也并不大。

更重要的是版权问题。在版权法和生成式AI各个层面的使用都有更清晰的概念和规章制度之前,好莱坞的制片厂和制作人们几乎不可能在大小荧幕上真正使用这些输出成品。许多问题仍然悬而未决,包括由AI辅助的这些模型是否受版权法保护,以及AI生成的内容是否因模型很可能在受版权保护的材料上进行训练而构成侵权责任。

去年2月,美国版权局重新审查并撤销了对漫画《Zarya of the Dawn》的版权保护,因为其中包含Midjourney创建的图片

目前,Sora并未对公众开放使用,且还需经过红队测试(Red teaming)以确定潜在的漏洞或滥用途径。OpenAI还承诺,将收集来自全球政策制定者、教育工作者和艺术家的反馈,以了解他们的关切点,并确定什么才是有益的使用场景。

这与Google研究人员在一月底发布文字到视频AI模型Lumiere时的担忧不谋而合,他们表示,虽然这种工具在创意和创作方面提供了可能性,但“存在滥用技术创造虚假或有害内容的风险。”

生成式AI将如何开启影视制作的新时代?

《综艺》的资深记者认为,尽管还存在着无法忽视的缺陷,生成式AI及其基础模型已经体现出了在合成制作(synthetic production)方面的潜力,这将取代部分实体制作的传统方式。其中,三个方面的能力最值得关注。

第一,视频生成:包括Sora、Runway的Gen-2和Pika在内的基于视频扩散模型的工具能够合成新鲜的视频,从文本提示、图像或视频中创建短的、无声的动态影像。这也是科技巨头们追逐的风口之一,Facebook和Google的研究人员分别开发了具有类似功能的未公开模型,分别命名为Emu Video和Imagen Video。此外,Google推出的多模态模型Gemini预计将提供视频生成功能,而OpenAI则有望在今年晚些时候通过其GPT-5模型更新,为ChatGPT引入视频生成功能。

Gemini 1.5迅速识别出Sora演示视频由AI生成,并分析指出了其中不合理的地方

第二,神经辐射场(Neural Radiance Field,简称NeRF)。在娱乐产品的制作领域,神经辐射场因其在视觉效果(VFX)方面的能力而备受关注。简单来说,它可以通过一部分2D图像推断出未见视角,即未被包含在训练数据中的视角,生成主体对象或场景的高保真3D图像。

与3D建模常用的摄影测量法相比,神经辐射场还能保留并动态渲染所有的反射、光照和不同材质的特性,例如玻璃的透明性、金属的光泽、人皮肤的光泽等。

对于VFX从业者甚至是导演们而言,单个神经辐射场可以呈现任意数量的可视化3D内容,可以在云服务器中操作,并能以各种可编辑的3D格式导出;它还能作为“虚拟摄像机”,使创作者能够模拟无限的“镜头”移动路径,从任何角度或位置进行构图,从而实现在后期重新定义场景构图的可能性;此外,在当下的虚拟制作中,需要视觉特效工作人员利用虚幻引擎(Unreal Engine)等渲染出逼真的场景环境3D影像同步到LED墙体上,而通过神经辐射场则能更轻松、更低成本地完成3D场景的创建,只需提前派出一小队摄影师前往场地简单地捕捉环境的视频或图像,然后进行渲染。

半导体行业巨头英伟达(NVIDIA)的神经辐射场3D场景创作演示

第三,影视分身。目前,利用Synthesia、Soul Machines和HeyGen等公司开发的生成式AI工具可以创建完全合成的、逼真的“分身”,结合深度伪造(Deepfake)视频和合成语音技术,精确复制特定人物的外貌、声音、表情和举止。这些独特的AI分身有时也被称为数字人、孪生体、替身或克隆人。

在语音能力方面,可以为这些分身提供它们可以口述的文本;也可以通过与GPT-4等大语言模型为它们提供知识库甚至是“大脑”,从而实现对话上的实时交互以及定制它们的“个性”。

然而,在当前的技术发展下,AI分身在逼真度上仍有很大的差异,有些几乎无法辨别是否为真人,而其他一些则看起来像3D图形或“游戏化”的人。

特别是,许多AI分身的动作和面部表情还受到技术限制,整体上容易陷入到“恐怖谷”(uncanny valley)的状态中,即会让观众对非常接近但不完全相似的人形或动物形象产生不安和排斥的情感反应。

恐怖谷理论图解(来源:维基百科)

随着技术的进步,也许在未来的某一天,通过在基于真人采集的数据或者在全新的虚拟人上进行训练,可以让完全合成、逼真的AI分身跨越恐怖谷,从而在外观、语言和行为上与现实世界中的人物无法区分开来。

但在包括AI开发人员在内的许多人看来,合成人物的表演不太可能完全取代电影和电视中的真实人类表演,至少它们无法担任主演。除了技术伦理和观众偏好的影响之外,业界普遍认为,要真实地复制人类演员的全部情感和反应能力是极其困难的。

此外,思考深度、情感倾向、个人意志等主观色彩浓烈的因素,体现了创作者的艺术水平,构成了影视作品的鲜明特色和风格,而这些恰恰是生成式AI并不具备的。因此,在未来的几年内,我们也许会看到它们能取代某些重复性较高、技术含量较低的工种,简化制作流程,压缩制作时间;但要进入到影视作品创作的核心领域,它们还有很长的路要走,或许永远也无法到达。


文章来源1:Variety VIP+,Why OpenAI’s Sora Isn’t Ready to Replace Hollywood,作者Audrey Schomer

文章来源2:Variety VIP+,How Generative AI Could Enable a New Era of Filmmaking,作者Audrey Schomer


相关阅读

  • 防范“AI换脸”诈骗 你需要的知识都在这儿了

  •   近年来,随着人工智能技术的进步,一些不法分子开始利用AI技术融合他人面孔和声音,制造非常逼真的合成图像来实施新型网络诈骗,这类骗局常常会在短时间内给被害人造成较大损失
  • 蛋壳生花领国潮

  •   富贵花开、龙凤呈祥、龙马精神……一枚枚栩栩如生、惟妙惟肖、寓意美满的蛋壳,为新春佳节增添了许多喜庆色彩。这是省级非遗蒲氏蛋雕为迎接龙年创制的新作品。  蒲氏
  • 防范“AI换脸”诈骗 你需要的知识都在这儿了→

  • 近年来,随着人工智能技术的进步,一些不法分子开始利用AI技术融合他人面孔和声音,制造非常逼真的合成图像来实施新型网络诈骗,这类骗局常常会在短时间内给被害人造成较大损失。我
  • 三星、OV都在押注的AI手机,是智商税吗?

  • 作者|鹿尧编辑|桑明强继功能机、智能机之后,下一个给手机行业带来革命性变化的是什么?这个问题,包括三星、华为、OV在内的大部分手机厂商,如今都已经将答案压在了“AI”上。在这之
  • 中控技术将推出首个生成式工业AI大模型

  • 中控技术将推出首个面向流程工业运行优化与设计的AI大模型,运用海量的生产运行、工艺、设备及质量数据,自主研发生成式AI算法架构(AIGC),基于工业多源数据进行融合训练,建立流程工
  • 男子造谣“外卖员被围殴”,警方:拘留5日

  • 2月24日,吴川市公安局通过其微信公众号发布一则信息称, 近日,吴川一男子为博眼球在个人视频账号发布不实信息,涉嫌散布谣言扰乱公共秩序,已被公安机关依法行政拘留。2024年2月22

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • Sora真的能撼动影视制作吗?

  • 又是OpenAI。这家公司于2022年11月推出的AI聊天机器人程式ChatGPT惊艳世界,引领了大语言模型和生成式AI(Generative AI)产业的蓬勃发展。而在2月16日,该公司的文本到视频(text-to
  • 顾雪代表:不断扩大基本医疗保障覆盖面

  •   2月20日,全国人大代表、衡水市医疗保障局局长顾雪在繁忙的工作之余,见缝插针抓紧完善自己提交给全国两会的建议。案头上,几份调研报告是近期走访调研基层医疗保障工作后形
  • 最小满月遇上元宵节,需再等62年

  • 新华社天津2月25日电 (记者 周润健)天上月圆,人间团圆。2月24日,今年最小满月如约现身夜空,为千家万户送上温馨的元宵节祝福。  天文科普专家表示,明后年的元宵节依然是“十五的
  • 最小满月遇上元宵节,需再等62年

  • 新华社天津2月25日电 (记者 周润健)天上月圆,人间团圆。2月24日,今年最小满月如约现身夜空,为千家万户送上温馨的元宵节祝福。  天文科普专家表示,明后年的元宵节依然是“十五的
  • 多彩民俗闹元宵 文旅大餐惠百姓

  • 看舞龙、闹社火、品元宵、赏明月……2月24日是农历正月十五,也是中国传统节日元宵节。这是一年之中最热闹的节日之一,元宵节期间,全国各地推出丰富多彩的文旅活动,让人们感受到