最近基于深度学习大火的AIGC将会抢原创工作者的饭碗?

频道:AIGC 日期: 浏览:

NLG | CLIP | Diffusion Model

GAN | AIGC | Stable Diffusion

随着CLIP、DALL·E、Diffusion Model、Magic3D、Stable Diffusion等技术的快速发展,AIGC在全球各大科技巨头间可谓是高频词汇,连带着AI这个老生常谈的话题也一并火热起来。


去年三月,OpenAI发布了人工智能绘画产品DALL·E,后来升级到DALL·E 2。谷歌和Meta紧随其后,并且进一步发展出文字转视频功能。今年8月,Stable Diffusion正式开源。而在日前,英伟达也宣布加入AIGC的赛道,发布了Magic3D。


那么AIGC是怎么突然火起来的?又是否是更通用的AI的起点?会不会和原创工作者“抢饭碗”?


注:由于篇幅有限需要更多 AIGC 详细资料,请在公众号末尾留下您的邮箱,小编会将PDF文件发您邮箱,共同进步学习。


AIGC高性能计算一体机


深度学习与AIGC


AIGC使用人工智能技术来生成内容。2021年之前,AIGC主要生成文字,新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等。AIGC被认为是继专业生产内容PGC、用户生成内容UGC之后的一种新的内容创作方式,可以充分发挥其在创意、表现力、迭代、传播、个性化等方面的技术优势。2022年,AIGC以惊人的速度发展。年初还处于技艺生疏阶段,几个月后达到专业水平,足以以假乱真。与此同时,AIGC的迭代速度呈指数级爆发,其中深度学习模型的不断完善、开源模型的推广以及大模型商业化的可能,成为AIGC发展的“加速度”。


一、深度学习模型是AIGC加速普及的基础


视觉信息在网络中一直具有很强的传播力且易被大众感知,具有跨平台、跨领域、跨人群的优势,自然容易被记住和理解。同时视觉信息应用场景广泛,因此生成高质量的图像成为当前AI领域的一个现象级功能。


2021年,OpenAI团队将开源跨模态深度学习模型CLIP(对比语言-图像预训练,以下简称“CLIP”)。CLIP模型可以将文字和图像关联起来,比如文字“狗”和狗的图像进行关联,并且关联特征非常丰富。所以CLIP模型有两个优点:

1、可以同时理解自然语言和分析计算机视觉,实现图文匹配。

2、为有足够多的有标记的“文本-图像”进行训练,CLIP模型大量使用互联网上的图片,这些图片一般携带各种文本描述,成为CLIP的天然训练样本。


据统计,CLIP模型在网络上收集了超过40亿的“文本-图像”训练数据,为AIGC的后续应用,尤其是输入文本生成图像/视频落定奠定了基础。


GAN(Generative Adver Serial Network)虽然是很多AIGC的基础框架,但它有三个缺点:

1、对输出结果的控制能力弱,容易产生随机图像;

2、生成的图像分辨率低;

3、由于需要使用鉴别器来判断生成的图像是否与其他图像属于同一类别,因此生成的图像是对已有作品的模仿,而非创新。所以依靠GAN模型很难生成新的图像,也无法通过文本提示生成新的图像。


AIGC相关深度学习模型汇总表


随后出现的Diffusion扩散化模型,真正让文本生成图像的AIGC应用为大众所熟知,也是2022年下半年Stable Diffusion应用的重要推手。Diffusion有两个特点:

1、在图像中加入高斯噪声,通过破坏训练数据进行学习,然后找出如何逆转这个噪声过程来恢复原始图像。训练后,模型可以从随机输入中合成新数据。

2、Stable Diffusion通过数学变换将模型的计算空间从像素空间降低到一个势空间的低维空间,大大减少了计算量和时间,大大提高了模型训练的效率。这种算法模式的创新直接推动了AIGC技术的突破性进展。



总的来说,AIGC在2022年实现了突破,主要是在深度学习模型上取得了很大的进步:首先基于海量互联网图片训练了CLIP模型,推动AI绘画模型结合创新;其次,Diffusion扩散化模型实现算法创新;最后,利用潜在空间的降维方法降低Diffusion模型内存和时间消耗大的问题。所以,AIGC绘画之所以能帮助大众画出各种充满想象力的画,有赖于大量深度学习模型的不断完善。


二、 “开源模式”成为AIGC发展催化剂


在算法模型方面,AIGC的发展离不开开源模型的推动。以深度学习模型CLIP为例,开源模型加速了CLIP模型的广泛应用,使其成为目前最先进的图像分类人工智能,让更多的机器学习从业者将CLIP模型嫁接到其他AI应用中。与此同时,AIGC绘画最受欢迎的应用稳定扩散(Stable Diffusion)已经正式开源(包括模型权重和代码),这意味着任何用户都可以使用它来建立特定文本到图像的创作任务。稳定扩散的开源直接引发了2022年下半年AIGC的广泛关注。短短几个月,大量二次开发出现,从模型优化到应用扩展,大大降低了用户使用AIGC进行创作的门槛,提高了创作效率,长期占据GitHub热榜第一。


AIGC绘画应用系统汇总表


在训练数据集方面,机器学习离不开大量的数据学习。作为全球非营利性机器学习研究机构,LAION于2022年3月开放了最大的开源跨模态数据库LAION-5B,使近60亿个“文本-图像”对可供训练,从而进一步加速了AI图像生成模型的成熟,帮助研究人员加速从文字到图像的模型生成。正是CLIP和LAION的开源模型构建了当前AI图像生成应用的核心。未来,随着模型的稳定,开源将成为AIGC走向成熟的催化剂。源模型有望使相关模型成为海量应用、网络和服务的基础,应用层面的创造力有望迎来拐点。


AIGC发展历程与概念


1950年,艾伦·图灵在论文《计算机器与智能》中提出了著名的“图灵测试”,给出了一种确定机器是否具有“智能”的测试方法,即机器能否模仿人类的思维方式“生成”内容,然后与人进行交互。某种程度上,从那时起,人工智能就被期待用于内容创作。经过半个多世纪的发展,随着数据的快速积累、算力性能提升和算法效力增强,今天的人工智能不仅可以与人类进行交互,还可以进行写作、编曲、绘画、视频制作等创意工作。2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为全球首个售出的人工智能艺术品,受到各界关注。随着人工智能在内容创作中的应用越来越多,人工智能生成内容(AIGC)的概念悄然兴起。


一、AIGC 发展历程


结合人工智能的演进,AIGC的发展大致可以分为三个阶段,即早期萌芽阶段(20世纪50年代至90年代中期)、沉淀积累阶段(20世纪90年代中期至21世纪10年代中期)、快速发展阶段(21 世纪 10 年代中期至今)。


1、早期萌芽阶段(1950s-1990s)


受当时科技水平限制,AIGC仅限于小规模实验。1957年,Lejaren Hiller和LeonardIsaacson通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲》。1966年,约瑟夫·韦岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,可以通过关键字扫描和重组来完成交互式任务。20世纪80年代中期,IBM基于隐马尔可夫模型创造了声控打字机“Tangora”大概能处理两万字。从80年代末至 90年代中,由于高昂的系统成本无法带来可观的商业变现,各国政府减少了在人工智能领域的投入,AIGC也没有取得重大突破。


2、沉淀积累阶段(1990s-2010s)


-->
关键词:

评论