1 简介
2022年绝对可以说是AIGC的元年。 从谷歌搜索趋势来看,2022年AI绘画和AI生成艺术的搜索量将激增。
今年AI绘画爆发的一个很重要的原因就是Stable Diffusion的开源。 这也离不开Diffusion Model这几年的快速发展,结合OPENAI的成熟文本。 有了语言模型GPT-3,从文本到图像的生成过程变得更加容易。
2. GAN(生成对抗网络)的瓶颈
从2014年诞生到2018年StyleGAN,GAN在图像生成领域取得了长足的进步。 就像自然界中的捕食者和猎物一起竞争和进化一样,GAN 的原理很简单,就是使用两个神经网络:一个作为生成器,一个作为鉴别器。 生成器生成不同的图像供判别器进行判断。 无论结果合格与否,两人都会相互竞争来训练模型。
GAN(生成对抗网络)经过不断发展取得了不错的成绩,但始终存在一些难以克服的问题:生成结果缺乏多样性、模式崩溃(生成器在找到最佳模式后停止前进)、训练难度高。 这些困难使得人工智能生成的艺术很难生产出实用的产品。
3、扩散模型的突破
经过多年的 GAN 瓶颈,科学家们想出了一种非常神奇的 Diffusion Model 方法来训练模型:使用马尔可夫链不断向原始图像添加噪声点,最终成为随机噪声图像。 然后让训练好的神经网络反转这个过程,将随机噪声图像逐渐恢复为原始图像。 这样,神经网络就具备了从头开始生成图像的能力。 为了从文本生成图像,需要处理描述文本并将其作为噪声添加到原始图像中。 这允许神经网络从文本生成图像。
扩散模型使模型的训练变得更加容易。 它只需要大量的图片。 生成的图像质量也可以达到很高的水平,并且生成的结果可以具有很大的多样性。 这也是新一代。 AI之所以能够拥有令人难以置信的“想象力”。
当然,技术一直在取得突破。 NVIDIA在一月底推出的StyleGAN-T升级版取得了惊人的进展。 与Stable Diffusion相比,相同算力下生成一张图片需要3秒。 StyleGAN-T 只需要0.1秒。 并且StyleGAN-T在低分辨率图像上优于Diffusion Model,但在高分辨率图像的生成中,Diffusion Model仍然占据主导地位。 由于StyleGAN-T的应用不如Stable Diffusion那么广泛,因此本文将重点介绍Stable Diffusion。
4. 稳定的扩散
今年早些时候,AI绘画圈经历了Disco Diffusion、DALL-E2、Midjouney混战的时代。 直到Stable Diffusion开源之后,一段时间才尘埃落定。 作为最强大的AI绘画模型,Stable Diffusion引起了AI社区的狂欢,基本上每天都有新模型和新开源库诞生。 尤其是Auto1111的WebUI版本推出后,无论是部署在云端还是本地,使用Stable Diffusion都变得非常简单。 随着社区的不断发展,很多优秀的项目,如Dreambooth、deforum等都已经稳定下来。 新增了Diffusion WEBUI版本的插件,可以一站式完成微调模型、生成动画等功能。
5. AI绘画玩法及能力介绍
下面介绍一下目前使用稳定扩散可以实现的玩法和能力。
Stable Diffusion能力介绍(下图是使用SD1.5模型输出)
介绍
进入
输出
文本2img
通过文字描述生成图片,通过文字描述指定艺术家风格和艺术类型。 这是艺术家 Greg Rutkowski 风格的一个例子。
一个穿着花衬衫的美丽女孩ai绘画生成器免费,右手托着下巴摆姿势拍照,作者:Greg Rutkowski
图像2图像
根据图片和文字描述生成图片
一个穿着花衬衫的美丽女孩,右手托着下巴摆姿势拍照,作者:Greg Rutkowski
修复
基于img2img,通过设置mask,只绘制mask内的区域,一般用于修改关键字来微调屏幕。
一个穿着花衬衫的美丽女孩,右手托着下巴ai绘画生成器免费,轻轻微笑,摆出姿势拍照吉祥物,作者:Greg Rutkowski
使用DreamBooth训练基于SD模型的微调大模型。 训练完成后,就可以通过这个模型来使用上面提到的text2img、img2img等能力。
小说人工智能
文本2img
目前表现最好的二维动画风格模型是由NAI以danbooru网站的公开图片作为数据集进行训练的。 但由于danbooru本身的版权问题,NovelAI一直备受争议,模型从商业服务中被泄露。 使用需谨慎。
一个穿着花衬衫的漂亮女孩,右手托着下巴摆姿势拍照
小说人工智能
图像2图像
使用NovelAI 的img2img 模型。 目前在各个社区非常流行的一建AI绘画也利用了这一能力。 但依依在免责声明中提到,他们的动画模型是根据他们收集的数据集进行训练的。
*右侧示例的文字描述来源于图像内容和AI推理,艺术家风格是随机的。
一个穿着花衬衫的漂亮女孩,右手托着下巴摆姿势拍照
人工智能绘画
基于用户照片训练的主体模型
根据用户提供的几张照片训练特定主题的模型。 该模型可用于根据描述生成包含该主题的任何图片。
这组图片使用了同事的20张照片,基于Stable Diffusion 1.5模型训练了2000步的模型卡通人物,并有几个风格化的提示输出。
提示示例(图1):
alicepoizon 肖像、高度详细的视觉特效肖像、虚幻引擎、greg rutkowski、loish、rhads、caspar david Friedrich、makoto shinkai 和 lois van baarle、ilya kuvshinov、rossdraws、elegent、tom bagshaw、alphonse mucha、全局照明、详细而复杂的环境
*alicepoizon 是训练该模型时赋予该角色的名称
基于同类型风格训练的风格模型
使用一组相同风格的图片训练一个经过微调的大模型,大模型可以用来生成风格统一的图片。
这组图片是使用Dewu Digital Collection ME.X训练的微调风格模型生成的。
一个穿着花衬衫的漂亮女孩
莱昂内尔·梅西
莱昂纳多·迪卡普里奥
斯嘉丽约翰逊
六、当前主要应用介绍
介绍
样本
美图、抖音、六笔、一剑等公司提供的AI绘画服务
提供更便捷的AI绘画体验,允许使用多种不同风格的定制大模型。
中途和达尔E 2
两项商业AI绘画服务。 midjouney有自己独特的模式,产品化程度高; DallE 2提供付费API服务,具有更高质量的生成效果。
Lensa、曼景等提供个人模特培训服务
提供之前的Dreambooth+稳定扩散服务,费用约为18-25元/次。 它上传15-20张用户照片,生成约20张定制艺术照片。
AI开源社区Huggingface
目前主流的AI开源社区,类似于github,有大量用户自己微调(fine-tuned)的Stable Diffusion模型,可以下载并部署到自己的服务器或本地计算机上。
比如右边的pix2pix模型就是结合GPT3的Stable Diffusion模型,可以通过自然语言描述完成上面提到的修复功能。
7.构建自己的Stable Diffusion WEBUI服务7.1云版本
这里使用AutoDL提供的云计算能力来构建,也可以使用其他平台如Google Colab或百度飞票。
运行以下命令启动该服务。 如果遇到系统盘空间不足,也可以将stable-diffusion-webui/文件夹移动到数据盘autodl-tmp下重新启动。 如果遇到启动失败的情况,您可以根据您机器的位置配置学术资源加速。
cd stable-diffusion-webui/ rm -rf outputs && ln -s /root/autodl-tmp outputs python launch.py --disable-safe-unpickle --port=6006 --deepdanbooru
6.2 本地版本
如果你有一台显卡好的电脑,可以在本地部署。 这里介绍一下Windows版本的设置:
八、总结
本文介绍了一些关于AI绘画的相关信息。 有兴趣的朋友也可以自己部署该服务,尝试学习使用DreamBooth或者最新的Lora对大型模型进行微调。 相信2023年,随着AIGC的普及度不断提升,我们的工作和生活将会因为AI而带来巨大的改变。 前段时间ChatGPT的推出给我们带来了巨大的震撼。 就像我们刚进入互联网时搜索信息的能力一样,学习利用AI来辅助我们的工作也将是未来非常重要的能力。
9. 参考资料
- 本文固定链接: https://wen.nuanque.com/midjourney/14538.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。