当前位置：首页行业动态正文

AIGC在新的一年是否会继续火爆

2023-01-05

什么是2022年最流行的词汇？AIGC是当之无愧的第一名。

从5月 Disco Diffusion和DALLE2开始，到11月 chatGPT一周内注册用户超过百万，期间无数 AIGC产品和创业公司纷纷涌现，掀起 AI创作热潮。

不可否认的是，美国主导了整个 AIGC的浪潮，并且将其开源；中国的产品和技术越来越像美国了。事实上， AIGC这个概念也是从中国本土而来的。在美国，更多地被称为“生成 AI”，即“生成 AI”。

事实上， AIGC是人工智能的一个子集。因此，本文将以 GA为统称年度生成式 AI进展情况。

人工智能领域还有一个名词，叫做“通用人工智能”，它可以理解为一种强大的人工智能的终极目标，它的目标是系统地解决人类能够完成的“任何”任务。产生式 AI是实现 AGI不可缺少的一步。也就是说，人类最有可能创造出 AGI的方法，就是将这些碎片化的 AI能力，整合到一个智能平台中，模拟人工智能的智能和适应性。

AGI早在几十年前的科幻作品中就已经出现了许多不同的表现形式，它们共同的特点就是拥有强大的自然语言理解能力，这也是当今人工智能产生浪潮的主要原因。

不管是 AIGC还是生成 AI，都是2022年才开始关注的。

底层技术已经悄无声息地突破了好几年，而生成 AI之所以能在2022年出现在普罗大众的视野中，归根结底，就是因为它的技术已经更上一层楼，可以向公众公开使用。

基于大语言模型（以下简称“LLM”）的text-to-X （文本到任意）技术在2022年取得了突破性进展，它们分别在text-to-image （文本到图片）、AI-generated-text （AI生成文本）、text-to-video （文本到视频）、生成代码（生成代码）等领域出现了值得全球关注的应用。

到2022年，技术取得突破性进展，开源将大大缩短人工智能产出的时间，提高产出的准确度。比如 GPT技术是 OpenAI的，GPT1早在2017年出现，而 GPT3.5则会在2022年出现。

自从2014年 AlphaGO击败柯洁之后，人类就对 AI寄予了很大的希望，“AI元年”层出不穷，但这些年来，人工智能的应用和底层技术一直没有太大的进展，这让所有人都对 AI失去了信心。

到了2022年，人工智能将会成为一种生产工具，并将其商业化，或许，“AI元年”就会到来。

AI Art成为越来越多应用程序的“标配”，降低了 C端触达的门槛，让每个用户都能直接在自己熟悉的应用程序和平台上使用，同时，越来越普遍的 AI Art将不再是核心竞争力和功能亮点；

从风险投资商的角度看，由于训练模型的成本较低，再加上服务商的涌现和竞争，使得用户数据和模型更加分散，从而降低了新的独角兽出现的可能性，也使得 VC难以选择投资对象；

从生态角度看，开发者、设计师、用户将共同探索需求与趋势，形成一个良性循环。

2月开始流行 Disco Diffusion, Diffusion底层技术彻底革新了 GAN

Disco Diffusion是一款应用于2022年2月初的人工智能图像生成软件，它能够根据描述场景中的关键词来生成相应的图像。

但是那时人们还没有意识到 Disco Diffusion将会是202年时 AI Art狂热的开端。

图为 UISDC第一次在美国最大的平面设计师社区发布关于 Disco Diffusion的科普文章。

上图是 UISDC上第一篇关于 Disco Diffusion的科普文章，设计师是一个对图像创作工具非常敏感的群体，那时候大部分 C端用户还不知道这个“黑科技”，即使知道了，也会因为复杂的调试环境而失去兴趣。

但随着 AI Art模型和工具的不断成熟，门槛越来越低，越来越多的 C端用户开始了解和使用这些工具。

从2022年开始， AI Art就一直很受欢迎，因为一种全新的交互方式，以文字和图像的形式呈现出来，向大众宣告了 AI Art正在走向“民主化”。使用文字描述，或基于画面意象与故事，或基于艺术家的风格、构图、色彩、透视等专业术语，几十秒钟内便可完成一幅作品。

从底层技术上来说，这是 Diffusion对 GAN的一次彻底革新。

传统的 AI Art技术是基于生成对抗网络（General Network, VAE）等技术，目前 GAN是目前最主流的 AI Art工具和平台模型，在模型训练方面取得了重大突破，但在实际应用中仍存在着严重的结构性问题。

随着热度的上升， Diffusion可能被取代。Denoising Diffusion Models （Denoising Diffusion Models）是一种新的生成模型，它是基于分数的生成模型。该方法通过不断地将高斯噪声加到训练数据中，从而使训练数据失真，再通过反向添加噪声来恢复数据。Diffusion还提供了大量的样本多样性，以及精确的模式覆盖学习数据的分布，这意味着 Diffusion适用于具有大量不同数据和复杂数据的学习模型。Diffusion缓慢地改变输入数据，把数据映射为正向变换的噪声，通过学习的参数反向过程完成数据的生成。该过程开始于随机噪声，然后逐级进行清理。

Diffusion极大地增强了图像生成的效果，有效地削弱了数字生成的痕迹，用户可以根据自己的步数进行选择，随着步数的增加，图像的精细程度也越来越高，这也激起了“硬核”的需求。

这也是为什么 AI Art工具在很久以前就已经存在的原因了，只不过在此之前，很多时候都会出现“太假”、不完整之类的问题，甚至还不如直接用 Photoshop来做一些风格化的处理，所以这些作品在 Diffusion时代就失去了收藏和分享的价值。

以 Disco Diffusion、 Stable Diffusion、DALL-E2、 MidJourney等算法和工具，都是人工智能在 C端的先驱。

4月推出了DALLE2

DALLE2能够根据自然语言来创造逼真的图像和艺术，由 OpenAI在2022年4月6日上线。

今年4月， OpenAI发布了DALL-E2,DALLE2能够根据自然语言描述创造出逼真的图像和艺术，超过150万用户对该模型进行了测试。

微软向 OpenAI提供资金，作为对其作品独家商业版权的交换，并将该模式整合到 AzureAI-as-a-service平台。

8月， Stability Diffusion上线

为了解决 DiscoDifusion的技术难题， Stability AI加大了投入，并于8月22日上线。并提出开源扩散模型（Stable Diffusion）。

StabilityAI成立于2019年，总部设在伦敦，致力于通过人工智能作为技术载体构建解决方案。

StableDiffusion是目前最先锋和最受欢迎的 AI绘画机器学习模型，由 StabilityAI开发。Stable Diffusion的预训练模型是一种文本到图像的人工智能模型。根据文字提示， Stable Diffusion能够生成512x512像素的逼真图像，来描述提示中的场景。

模型权重发布之前，其代码已经发布，模型权重被有限地发布给研究社区。在最新版本中，用户可以下载和运行 Stable Diffusion，这是消费者级别的硬件。该模型除了生成文本图像外，还支持图像风格转换和图像质量改善。除了发布这个版本外， Stable AI还发布了一个测试版 API和一个名为 DreamStudio的 Web用户界面。

Stable Diffusion基于称为潜在扩散模型的图像生成技术。不同于其他常用的图像合成方法，如生成对抗网络（GANs）和DALL-E所采用的自动回归技术， LDMs通过在潜在的表示空间中对数据进行“去噪”，从而生成图像，然后将表示结果译成完整图像。

LDM是由 Munich大学的机器视觉和学习研究组开发的，最近发表在 IEEE/CVF计算机视觉与模式识别会议上。早在2022年初， InfoQ就曾报道过谷歌的 Imagen模型。

标准分布模型支持多种操作。该算法类似于DALL-E，能够根据需要的文本描述生成高质量的图像。它也能根据简单的草图，加上文字描述所需要的图像，从而产生更加逼真的图像。

MetaAI还发布了一款名为Make-A-Scene的模型，其功能类似于图像转换。

10月18日， Stability AI融资成为独角兽，更掀起一股热潮

10月18日，在上线不到两个月的时间里， StabilityAI获得了1.01亿美元的融资，由 Coatue和 Lightspeed Venture Partners共同投资，估值在10亿美元以上。

上线不到两个月的时间，就成为了独角兽，这足以证明， AI和人工智能在市场上的认可。这也引发了一级市场对 AI绘画的强烈关注。

同样在10月份，微软开始把生成人工智能技术与DALLE2相结合，集成到它的 Bing搜索引擎， Edge浏览器，以及新的微软设计办公室。

2022商业化进程：欲速则不达

随着 AI Art技术越来越受到重视，开发门槛越来越低，在10、11月间， AI Art初创企业和产品大量涌现。

11月初开启 Product Hunt （开发新产品的平台，开发者可以提交自己的作品，网站会根据投票结果，每天都会有新的 AI作画产品上线，并且每天都能排在榜单前列。

AIGC

欧易OKX(原OKEx)最新网址站

AIGC在新的一年是否会继续火爆