当前位置:首页 行业动态 正文

OpenAI Sora震撼亮相:文生视频技术再进一步,AI领域又迎来风云变幻

2024-02-21

中国农历新年假期,OpenAI再次掀起技术浪潮,发布了备受期待的Sora模型,其独特的文生视频技术引起了广泛关注。这一新技术的推出再次凸显了OpenAI在人工智能领域的领导地位。

 

Sora模型的效果在科技界掀起了一阵轰动,不仅可以根据文字创造逼真场景,而且其生成的视频时长达到60秒,远超过同类产品。OpenAI一贯的技术想象力和卓越的工程能力再次成为业界瞩目的焦点。这种差异化的优势使得一众AI视频创业公司难以望其项背,尤其是在用户感知的角度上,Sora的优势更是显而易见。

 

01、创新技术引领潮流,文生视频技术走向成熟

 

在Sora发布之前,文生视频技术领域一直未能实现技术的真正收敛。以往的技术路径主要通过各种方式让单帧的图片呈现动态效果,类似于定格动画。然而,用户对视频连贯性和自然度的需求促使Sora的独特之处逐渐凸显。相较于以往的方法,Sora采用了一种全新的思路,让模型一次性预测多帧画面,并且保持视频主体的稳定。这一方法的巧妙之处在于在视频帧上实现突破,从而提升了生成视频的使用上限。

 

Sora模型引入了Transformer到文生视频的扩散模型中,实现了视频帧之间语义信息的预测。这一创新让语言模型在视频生成领域发挥了巨大的价值。尽管Sora的技术并非从零开始的创新,但整体工程呈现的效果却非常出色。文生视频技术之所以难以收敛,工程难以落地,与Sora采用的创新方法密切相关。这种方法的成功突破让Sora在技术上独具巧妙之处,使得生成视频的使用上限得以提升。

 

02、迈向好莱坞水准,AI与普通用户的距离逐渐拉近

 

在过去的几年里,文生视频技术的模型虽然出现了Runway、Pika等引人注目的产品,但整个行业并未将扩散模型和语言模型的结合放在最高优先级。然而,随着文生视频技术的逐渐成熟,生成视频技术的使用门槛进一步降低,这将帮助人们完成更多的工程化工作。这也意味着有望出现媲美好莱坞水准的视频解决方案。

 

具体而言,文生视频技术的发展让视频制作的流程发生了巨大变化。从过去的前期设计、中期拍摄到后期制作的传统流程中,逐步向后期制作倾斜,特别是随着不断生成新的视频元素,前期设计和中期拍摄的工作流也产生了极大的变化。这也意味着新的工具和工作流将在不久的将来出现。

 

这一发展最终将在多个C端消费场景中得到应用,例如商品广告、剧情片等。特别是对于视觉艺术、设计师、电影制作等领域,这将有助于这些专业人士快速原型化和可视化,从而节省时间和成本。

 

对于普通用户而言,虽然可能无法通过Sora制作好莱坞大片,但制作一个60秒的高质量短视频似乎已经近在咫尺。尤其是对于那些在内容逻辑性要求不高、在探索科幻等方面的用户,Sora可以协助他们进行个性化内容的制作。

 

03、AI视频剪辑软件的前景

 

对于OpenAI来说,Sora是前锋,擅长的是开山辟路。然而,Sora本身的商业价值仍有待商榷。要靠60秒生成的视频成为下一个董宇辉、李佳琪似乎并不现实,更别说制作长视频、电影、电视剧等内容。在短视频领域,通过一遍遍修改提示词更加有效,或者在视频剪辑软件中调整素材更为迅速。

 

因此,我们更期待AI视频剪辑软件的普及,这将在商业上真正提升效率。同时,通过提示词进行视频生成仍然存在理解偏差的问题,这一问题不仅困扰着文生视频,在ChatGPT的使用过程中依然没有得到解决。

 

即使Sora全面开放使用,普通用户也难以制作出

 

像当前演示案例那样的Demo。因此,Sora是否能够普及的关键在于工具本身是否能够提升人们的工作效率。

 

04、其他企业在生成视频领域还有机会吗?

 

显然,并非如此。在生成式人工智能领域,科技企业都在不断发力。Meta几乎在同一时间发布了V-JEPA,该模型可以在不进行微调的情况下应用于各种需要世界知识的任务。而且,V-JEPA是在特征空间进行自监督学习,效率更高。谷歌也在相近的时间上线了Gemini 1.5,可以支持10000K token的上下文,使得大模型的输出更加连贯、实用。Runway和Pika等之前的文生视频产品仍然可以在人工智能时代占据一席之地。

 

Sora应用的是Transformer+Diffusion,从模型架构的角度来看,如果以Transformer为基准,那么文生视频仍然是龙头科技企业更具优势。然而,如果生成式视频架构依然围绕Diffusion展开,创业企业的机会更为广阔。技术的螺旋式上升带来了产业的繁荣。

 

Sora虽然能够一次性生成几十秒的视频,但在应用阶段,如果产品无法提供足够的微操空间,确保用户能够通过微操将其整合到自己的工作流中,那么大概率Sora仍然会越来越炸裂,距离用户也会越来越远。即使是ChatGPT已经问世一年多,仍有大量用户没有使用过聊天机器人。这也为开源社区迎头赶上创造了窗口期。同时,文生视频等模型的模块化组合是否会像iPhone一样带来专有的智能设备?这将使更多的用户能够在端侧使用模型,构建起开源+小参数模型+移动端的思路,为智能手机形态带来一次革新。

 

在新产品不断涌现的同时,技术的扩散才刚刚开始。不会有任何一家公司在新技术出现时“猝死”。

 

05、AI爆发时代,普通人也能成为“领航员”

 

在AI爆发时代,普通人需要清醒头脑,不被过分夸大的词汇所左右。Sora的爆发给普通人提供了三个方向:

 

1. 将AI应用到熟悉的场景中: 只有将人工智能新应用融入到实际场景和工作中,我们才能真正理解人工智能可能替代的工作内容,以及替代的程度。这也有助于发现人工智能在哪些方面真正落地并解决问题。

 

2. 探索属于你的新模式: Sora展示了各种超能力,但仍需要一个真正的“伯乐”来理解人工智能工具的各种优势和不足,并对自身业务体系有深刻的理解和洞察。通过使用人工智能技术来整合和重塑业务流程,将有望出现更多整合了人工智能的全新方案,渗透到各个行业中。

 

3. 保持清醒,不被夸大词汇左右: 在Sora爆发的当下,普通人需要保持清醒,避免被“遥遥领先”、“王炸”等夸张词汇所左右。利用人工智能提高生产力和解决实际问题,是普通人在AI时代的最大优势。如果只是抱着尝鲜的心态,只是用人工智能进行娱乐性质的尝试,那么将无法真正发挥先进科技的价值,提高生产力和效率。

 

在AI爆发时代,人工智能不再是遥不可及的未来,普通人有机会成为“领航员”,通过应用AI技术提高工作效率,解决实际问题。新的整合方案不断涌现,为各行业带来了更多的可能性。在这个时代,每个人都可以成为推动人工智能进步的一部分。