当前位置：首页行业动态正文

深入了解Sora：AGI的又一里程碑

2024-02-19

在2024年初，OpenAI引爆了人工智能领域的又一颗炸弹——视频生成模型Sora。

类似一年前的ChatGPT，Sora被认为是通用人工智能（AGI）的又一个重要里程碑。

" Sora代表着AGI实现从10年缩短到1年的可能性，" 360董事长周鸿祎发表了这样的预测。

然而，Sora引起轰动并非仅仅因为其生成的视频更长、清晰度更高，而是因为OpenAI已经超越了以往所有人工智能生成模型的能力，成功生成了与真实物理世界相关的视频内容。

尽管无厘头的赛博朋克风格令人着迷，但真实世界如何被人工智能重新呈现才更具意义。

因此，OpenAI提出了一个全新的概念——世界模拟器。

在OpenAI官方发布的技术报告中，Sora被定位为"作为世界模拟器的视频生成模型"，并强调"我们的研究结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。"

OpenAI认为，Sora为理解和模拟真实世界的模型奠定了基础，这将是实现AGI的一个重要里程碑。因此，Sora不仅仅是在AI视频领域竞争中超越了Runway、Pika等公司，更是为实现AGI打开了新的篇章。

从文字（ChatGPT）到图片（DALL·E）再到视频（Sora），OpenAI仿佛正在拼凑一幅大拼图，试图通过影像媒介形态彻底打破虚拟与现实的边界，成为电影中的"头号玩家"。

如果说苹果的Vision Pro是头号玩家的硬件外显，那么一个能够自动构建仿真虚拟世界的AI系统才是其灵魂。

"语言模型近似人脑，视频模型近似物理世界，" 爱丁堡大学的博士生Yao Fu表示。

Sora是如何成为"世界模拟器"的呢？

在OpenAI发布的Sora模型中，打开了2024年AI视频赛道的大门，彻底改变了2023年以前的旧世界。

在Sora的48个演示视频中，解决了以往AI视频的一些问题，如更清晰的生成画面、更逼真的效果、更准确的理解能力、更顺畅的逻辑理解能力以及更稳定和一致性的生成结果等。

然而，这只是Sora展现的冰山一角，因为OpenAI一开始就瞄准的不仅仅是视频，而是所有存在的影像。

影像是一个更大的概念，视频只是其中的一个子集。OpenAI的目标是以视频为切入口，涵盖一切影像，模拟和理解现实世界，即其所强调的"世界模拟器"概念。

Sora的成功体现在哪里呢？首先，OpenAI采用了训练大语言模型的思路，用大规模的视觉数据来训练一个具备通用能力的生成模型。这与以前的"专人专用"逻辑完全不同，展示了OpenAI的大胆创新。

其次，在Sora身上展现了扩散模型与大模型能力的完美融合。

在技术报告中，OpenAI强调了"将各种类型的视觉数据转化为统一表示法的方法，这种表示法可用于生成模型的大规模训练。"

具体而言，OpenAI将视频画面的每一帧编码转化为视觉补丁，每个补丁类似于GPT中的一个token，成为视频、图像中的最小衡量单位。这种方法找到了统一数据的方式，统一了度量衡，也就找到了打通扩散模型和大模型的桥梁。

在整个生成的过程中，扩散模型负责生成效果的部分，而通过增加大模型Transformer的注意力机制，增加了生成的预测和推理能力。这也解释了为什么Sora能够从现有的静态图像中生成视频，还能扩展现有视频或填充缺失的画面帧。

尽管Sora仍有许多局限性，例如物理交互的准确性、长期依赖关系的处理和空间细节的精确性等方面的挑战，但它已经在虚拟和现实世界之间建立了一座桥梁，为无论是虚拟世界的头号玩家，还是机器人更接近人类，都带来了更大的可能性。

总的来说，Sora的发布不仅影响了视频生成领域，还在多个行业中创造了新的机遇和挑战。无论是影视制作、游戏，还是机器人领域，Sora都展示了其世界模拟器的潜力，为实现更智能、更深度的人工智能迈出了重要一步。

欧易OKX(原OKEx)最新网址站