酷应用

谷歌、Meta、英伟达……巨头扎堆的AIGC，国内发展如何了？

百家作者：CSDN 2022-11-24 18:43:41

时下，AI领域最火的技术非AIGC莫属。去年三月，OpenAI发布了人工智能绘画产品DALL·E，后来升级到DALL·E 2。谷歌和Meta紧随其后，并且进一步发展出文字转视频功能。今年8月，Stable Diffusion正式开源。而在日前，英伟达也宣布加入AIGC的赛道，发布了Magic3D。

AIGC究竟如何从前些年的默默无闻，到这两年的火爆网络？是什么变量促成了这一技术的爆发，又是哪些潜在趋势在助推这股潮流？我们国内目前在这一技术领域的发展现状又如何？

AIGC火爆的背后：Diffusion Model的出现

AI生成其实一直都有，在2021年之前主要通过NLG生成文字，而要完成图片等视觉艺术品，则要基于生成对抗网络GAN，通过生成器和判别器不断对抗来训练模型。

通过GAN的算法训练，可以生成不错的图形，但也有很多问题难以解决，比如图形结果雷同，多样性缺乏；生成器有上升瓶颈，从而造成模式坍缩；以及训练难度高和成本大。

所以，尽管图形生已有不短的历史，包括像BigGAN，StyleGAN等的技术突破，但始终未能让产品真正商业化，只能停留在新奇好玩的阶段，直到Diffusion Model（扩散模型）?出现。

通过马尔科夫链，将文字描述文本经过处理后当做噪声不断添加到原图当中，从而让神经网络从无到有的生成了图片，这是扩散模型的作用原理。通过该模型，算法训练变得更加简洁，只需要添加大量图片，生成的结果相较GAN更具多样性。

但自2015年诞生的前五年，扩散模型并没有引起业界关注。直到2020年，一篇名为Denoising Diffusion Probabilistic Models 的论文终将这一模型用在了图像的生成上。

反应极快的OpenAI，在隔年1月即公布将出品Dall-E。并宣称Diffusion Model击败了GAN（论文：Diffusion Models Beat GANs on Image Synthesis），从而似乎为AI生成的工程落地指明了方向。

更多推动力：大模型、多模态、开源模式

同样是OpenAI，两年前推出1750亿参数的预训练语言大模型GPT-3，至此开始，千亿规模的大模型训练成为流行趋势。但在国内，一方面因为接口开放的限制，AI生成相关应用难以使用；另一方面，大模型训练成本高企，让不少企业望而却步。这些导致了AI生成在国内无论是应用，还是形成产业都未能起势。但在近来，还是有不少国内企业开始关注大模型训练，走在前面的公司已经展开训练。

同样非常火的多模态，对于发展AIGC来说，重要性体现在打破不同模态的数据，包括文本、图像、视频、音频等数据之间的分界线，从而在模型的构建上趋向统一。多模态已经通过 DALL-E、Stable Diffusion的应用日趋成熟。

而除了技术本身，开源模式也进一步推动了AIGC的发展，AIGC火爆也有像Stable Diffusion正式开源（模型权重和代码）的功劳，这意味着所有人都可以通过开源代码做出文本生成图像的产品，因而Stable Diffusion也在GitHub上长期霸榜。

彼岸到此岸：国内AIGC的产业先锋们

然而，对于中文世界的创作者来说，无论是在 DALL-E 2 还是在Stable Diffusion上操作，不仅需要对英文Prompts的准确表达极尽思考，在英文语境下想要生成真正地道中国风的画作也是难上加难。

实际上，国内已经有一些AIGC的行业先锋推出了中文版的AI生成产品。

紧随Stable Diffusion，心辰科技（盗梦师团队）在不到一个月时间，于今年8月底上线 AI 作画产品“盗梦师”。仅用1秒出图，日留存率接近50%，上线不到两个月生成的图像数量已经达到1千万张，且已经开启商业化。

盗梦师生成的画作

本月初，第一个中文版本的 Stable Diffusion 模型“太乙 Stable Diffusion”正式开源。2022 年 7 月，IDEA CCNL开源了第一个中文CLIP模型，目前已经有 4 个版本。太乙 Stable Diffusion上线二十天，下载量即超过10万，成为全球排名第三的Stable Diffusion模型。

太乙 Stable Diffusion生成的画作“飞流直下三千尺，唯美，插画”

本月中，智源研究院大模型研究团队开源最新双语AltDiffusion模型，并在近日升级至 AltDiffusion-m9版本，全面支持中、英、西、法、日、韩、阿、俄、意等九种不同语言的文图生成任务。该模型已跻身 GitHub Python 开源项目每日热榜，paperwithcode 网站热度前5。