AIGC在新的一年是否会继续火爆
什么是2022年最流行的词汇?AIGC是当之无愧的第一名。
从5月 Disco Diffusion和DALLE2开始,到11月 chatGPT一周内注册用户超过百万,期间无数 AIGC产品和创业公司纷纷涌现,掀起 AI创作热潮。
不可否认的是,美国主导了整个 AIGC的浪潮,并且将其开源;中国的产品和技术越来越像美国了。事实上, AIGC这个概念也是从中国本土而来的。在美国,更多地被称为“生成 AI”,即“生成 AI”。
事实上, AIGC是人工智能的一个子集。因此,本文将以 GA为统称年度生成式 AI进展情况。
人工智能领域还有一个名词,叫做“通用人工智能”,它可以理解为一种强大的人工智能的终极目标,它的目标是系统地解决人类能够完成的“任何”任务。产生式 AI是实现 AGI不可缺少的一步。也就是说,人类最有可能创造出 AGI的方法,就是将这些碎片化的 AI能力,整合到一个智能平台中,模拟人工智能的智能和适应性。
AGI早在几十年前的科幻作品中就已经出现了许多不同的表现形式,它们共同的特点就是拥有强大的自然语言理解能力,这也是当今人工智能产生浪潮的主要原因。
不管是 AIGC还是生成 AI,都是2022年才开始关注的。
底层技术已经悄无声息地突破了好几年,而生成 AI之所以能在2022年出现在普罗大众的视野中,归根结底,就是因为它的技术已经更上一层楼,可以向公众公开使用。
基于大语言模型(以下简称“LLM”)的text-to-X (文本到任意)技术在2022年取得了突破性进展,它们分别在text-to-image (文本到图片)、AI-generated-text (AI生成文本)、text-to-video (文本到视频)、生成代码(生成代码)等领域出现了值得全球关注的应用。
到2022年,技术取得突破性进展,开源将大大缩短人工智能产出的时间,提高产出的准确度。比如 GPT技术是 OpenAI的,GPT1早在2017年出现,而 GPT3.5则会在2022年出现。
自从2014年 AlphaGO击败柯洁之后,人类就对 AI寄予了很大的希望,“AI元年”层出不穷,但这些年来,人工智能的应用和底层技术一直没有太大的进展,这让所有人都对 AI失去了信心。
到了2022年,人工智能将会成为一种生产工具,并将其商业化,或许,“AI元年”就会到来。
AI Art成为越来越多应用程序的“标配”,降低了 C端触达的门槛,让每个用户都能直接在自己熟悉的应用程序和平台上使用,同时,越来越普遍的 AI Art将不再是核心竞争力和功能亮点;
从风险投资商的角度看,由于训练模型的成本较低,再加上服务商的涌现和竞争,使得用户数据和模型更加分散,从而降低了新的独角兽出现的可能性,也使得 VC难以选择投资对象;
从生态角度看,开发者、设计师、用户将共同探索需求与趋势,形成一个良性循环。
2月开始流行 Disco Diffusion, Diffusion底层技术彻底革新了 GAN
Disco Diffusion是一款应用于2022年2月初的人工智能图像生成软件,它能够根据描述场景中的关键词来生成相应的图像。
但是那时人们还没有意识到 Disco Diffusion将会是202年时 AI Art狂热的开端。
图为 UISDC第一次在美国最大的平面设计师社区发布关于 Disco Diffusion的科普文章。
上图是 UISDC上第一篇关于 Disco Diffusion的科普文章,设计师是一个对图像创作工具非常敏感的群体,那时候大部分 C端用户还不知道这个“黑科技”,即使知道了,也会因为复杂的调试环境而失去兴趣。
但随着 AI Art模型和工具的不断成熟,门槛越来越低,越来越多的 C端用户开始了解和使用这些工具。
从2022年开始, AI Art就一直很受欢迎,因为一种全新的交互方式,以文字和图像的形式呈现出来,向大众宣告了 AI Art正在走向“民主化”。使用文字描述,或基于画面意象与故事,或基于艺术家的风格、构图、色彩、透视等专业术语,几十秒钟内便可完成一幅作品。
从底层技术上来说,这是 Diffusion对 GAN的一次彻底革新。
传统的 AI Art技术是基于生成对抗网络(General Network, VAE)等技术,目前 GAN是目前最主流的 AI Art工具和平台模型,在模型训练方面取得了重大突破,但在实际应用中仍存在着严重的结构性问题。
随着热度的上升, Diffusion可能被取代。Denoising Diffusion Models (Denoising Diffusion Models)是一种新的生成模型,它是基于分数的生成模型。该方法通过不断地将高斯噪声加到训练数据中,从而使训练数据失真,再通过反向添加噪声来恢复数据。Diffusion还提供了大量的样本多样性,以及精确的模式覆盖学习数据的分布,这意味着 Diffusion适用于具有大量不同数据和复杂数据的学习模型。Diffusion缓慢地改变输入数据,把数据映射为正向变换的噪声,通过学习的参数反向过程完成数据的生成。该过程开始于随机噪声,然后逐级进行清理。
Diffusion极大地增强了图像生成的效果,有效地削弱了数字生成的痕迹,用户可以根据自己的步数进行选择,随着步数的增加,图像的精细程度也越来越高,这也激起了“硬核”的需求。
这也是为什么 AI Art工具在很久以前就已经存在的原因了,只不过在此之前,很多时候都会出现“太假”、不完整之类的问题,甚至还不如直接用 Photoshop来做一些风格化的处理,所以这些作品在 Diffusion时代就失去了收藏和分享的价值。
以 Disco Diffusion、 Stable Diffusion、DALL-E2、 MidJourney等算法和工具,都是人工智能在 C端的先驱。
4月推出了DALLE2
DALLE2能够根据自然语言来创造逼真的图像和艺术,由 OpenAI在2022年4月6日上线。
今年4月, OpenAI发布了DALL-E2,DALLE2能够根据自然语言描述创造出逼真的图像和艺术,超过150万用户对该模型进行了测试。
微软向 OpenAI提供资金,作为对其作品独家商业版权的交换,并将该模式整合到 AzureAI-as-a-service平台。
8月, Stability Diffusion上线
为了解决 DiscoDifusion的技术难题, Stability AI加大了投入,并于8月22日上线。并提出开源扩散模型(Stable Diffusion)。
StabilityAI成立于2019年,总部设在伦敦,致力于通过人工智能作为技术载体构建解决方案。
StableDiffusion是目前最先锋和最受欢迎的 AI绘画机器学习模型,由 StabilityAI开发。Stable Diffusion的预训练模型是一种文本到图像的人工智能模型。根据文字提示, Stable Diffusion能够生成512x512像素的逼真图像,来描述提示中的场景。
模型权重发布之前,其代码已经发布,模型权重被有限地发布给研究社区。在最新版本中,用户可以下载和运行 Stable Diffusion,这是消费者级别的硬件。该模型除了生成文本图像外,还支持图像风格转换和图像质量改善。除了发布这个版本外, Stable AI还发布了一个测试版 API和一个名为 DreamStudio的 Web用户界面。
Stable Diffusion基于称为潜在扩散模型的图像生成技术。不同于其他常用的图像合成方法,如生成对抗网络(GANs)和DALL-E所采用的自动回归技术, LDMs通过在潜在的表示空间中对数据进行“去噪”,从而生成图像,然后将表示结果译成完整图像。
LDM是由 Munich大学的机器视觉和学习研究组开发的,最近发表在 IEEE/CVF计算机视觉与模式识别会议上。早在2022年初, InfoQ就曾报道过谷歌的 Imagen模型。
标准分布模型支持多种操作。该算法类似于DALL-E,能够根据需要的文本描述生成高质量的图像。它也能根据简单的草图,加上文字描述所需要的图像,从而产生更加逼真的图像。
MetaAI还发布了一款名为Make-A-Scene的模型,其功能类似于图像转换。
10月18日, Stability AI融资成为独角兽,更掀起一股热潮
10月18日,在上线不到两个月的时间里, StabilityAI获得了1.01亿美元的融资,由 Coatue和 Lightspeed Venture Partners共同投资,估值在10亿美元以上。
上线不到两个月的时间,就成为了独角兽,这足以证明, AI和人工智能在市场上的认可。这也引发了一级市场对 AI绘画的强烈关注。
同样在10月份,微软开始把生成人工智能技术与DALLE2相结合,集成到它的 Bing搜索引擎, Edge浏览器,以及新的微软设计办公室。
2022商业化进程:欲速则不达
随着 AI Art技术越来越受到重视,开发门槛越来越低,在10、11月间, AI Art初创企业和产品大量涌现。
11月初开启 Product Hunt (开发新产品的平台,开发者可以提交自己的作品,网站会根据投票结果,每天都会有新的 AI作画产品上线,并且每天都能排在榜单前列。