AI绘画的发展速度已经超出了我们的想象。
例如,下面五张图片,你能看出哪一张不是AI生成的吗?
图一:
图B:
图C:
图D:
图E:
(作品出处及答案见文末)
很多人可能会感到惊讶。 两年前,人工智能只能画出一些无法识别的模糊图片。 现在,一个没有绘画基础的人,用AI输入几个关键词,等待几十秒,就可以生成一幅相对精美的作品。 如果多加练习,有些作品甚至可以达到商业化的水平。
AI绘画为何突然进入科技爆发时代?
从今年2月份Disco Diffusion上线,4月份MidJourney上线,DALL-E 2内测,到5、6月Google推出Imagen和Parti,以及DALL-E 2内测开源7月稳定扩散,各种AI绘画技术飞速升级,部分画家感觉几乎是“一日一日”。
这股浪潮也从国外蔓延到国内,百度等各大互联网公司,以及大量艺术和人工智能从业者和爱好者纷纷投入到AI绘画这个新领域。 代表平台有文心一格、6pen、Tiamat等。
与此同时,关于AI绘画的争议和争论也愈演愈烈。 最近圈外的一件事是,AI绘画《太空歌剧院》在美国科罗拉多州博览会艺术大赛中获得“数字艺术/数字修饰照片”类别最高奖。 因而遭到画家们的质疑和抵制。
对于内容创作者来说,现在我们应该如何理解AI绘画? 有哪些应用场景和需要探索的问题? 我们采访了多位创作者,并根据各个平台的案例进行了分析。
文章分为三个部分:第一部分是对AI绘画的基本原理和发展历史的简单科普,第二部分列出了AI绘画的一些具体应用案例,第三部分讨论了目前AI绘画中存在的争议和问题。人工智能绘画。 对感兴趣的朋友有帮助,欢迎友好交流。
AI绘画是材质拼贴?
首先,我们这里讨论的AI绘画主要是一种由文本生成图像的计算机程序,即“text2image”。
例如,这张图片是由 DALL·E 2 上的文字“泰迪熊在 1980 年代致力于月球上的新人工智能研究”(Teddy bearsworking on new AI Research on the Moon in the 1980s)生成的。
稍微修改一下描述,将位置替换为“采用 20 世纪 90 年代技术的水下”,得到下图:
可见,AI绘画并不是简单地对现有材料进行“拼接拼贴”,而是根据文字描述创造出新的图像。 想一想,这背后是一次庞大而复杂的深度学习训练。
让我们从AI绘画技术发展的历史来初步了解文森特图的基本原理。
AI绘画发展时间表,图片来源“豆沙”
深度学习在计算机视觉领域的发展可以追溯到2012年,AI学者吴恩达和Jeff Dean的猫脸识别实验(通过1000台计算机创建高达10亿个连接的“神经网络”,数十亿)上千张猫脸训练完人脸图片的模型后表情包设计,最终画出了一张模糊的猫脸)AI创作工具,这意味着机器已经学会了自主识别猫的脸。
此后,科学家们在AI图像生成方向持续深入研究,提出了“GAN(Generation Against Network)”,通过生成器和判别器之间的相互博弈不断提高生成能力,就像老师一样检查学生的绘画能力。 看起来像吗? 如果看起来不像,学生就会再次修改,以此类推。
2015年到2020年,从GAN开始,AI绘画模型已经进行了很多探索,但此时AI仍然无法根据文本生成图片。
直到2021年1月,OpenAI陆续发布了两个连接文本和图像的神经网络DALL E和CLIP。 CLIP(跨模态预训练模型)基于大规模图形数据集进行比较学习训练,可以提取文本和视觉特征以相互匹配。 也就是说,AI可以将“猫”这个词与猫的图像联系起来,而且关联的特征非常丰富。
CLIP推出一年后,即2022年2月,来自Somnai等多个开源社区的工程师制作了一款AI图像生成器Disco Diffusion(简称DD),可以理解输入的主要内容、艺术风格、结构视角和修饰词,生成的图片更加绚丽。 DD作为一个免费的开源项目,承载在Google Colab上,可以用浏览器运行。 AI绘画从此进入大众视野。
不过,DD并不是“CLIP+GAN”的组合,而是“CLIP+Diffusion”。 Diffusion(扩散模型)也是目前最流行的图像生成模型。
这个扩散有什么区别?
可以看到DD图像生成的过程从模糊逐渐变得清晰。
每个图像本质上都是一个像素矩阵。 扩散首先不断向图像添加高斯噪声,图像变成一堆随机噪声,然后学习通过反转噪声过程来恢复数字。
Diffusion模型的扩散过程和逆扩散过程
所以当我们在DD中输入文字描述时,程序会从Diffusion随机产生的噪声开始,CLIP会不断计算并检查图片与描述的一致性,并迭代修改,直到噪声变成正确关联的线条和颜色,从而生成符合需要的图像。
AI艺术研究员“FeiArt”认为,基于生成模型的AI绘画是一种“编码到非编码”的艺术。
虽然DD实现了文生图,但是因为是开源的,所以上手门槛比较高,满屏的代码可能就足以劝新手小白退出了。
“一开始要自己调整20个、30个参数,编写更合适的提示才能画出更理想的画面效果,对用户理解算法逻辑、写关键词的要求非常高。但目前的版本基本做到了不需要调整参数,只要写上关键字就可以了。 数字艺术家“mindplayer”向我们介绍了使用DD的经历,从今年3月份开始,她就在Bilibili和小红书上分享AI绘画作品和教程,是第一批玩家。
DD出圈不到一个月,一款更成熟、入门门槛更低的产品很快出现——Midjourney(简称MJ),目前社区成员超过260万。
MJ 承载于 Discord(国外流行的虚拟社交平台)。 这是一个开放的社区。 用户加入后,在聊天框中输入描述文字发送,群内机器人会回复并生成图片。
默认每次生成4张图片。 用户可以点击图片下方的按钮继续加深(u1/2/3/4),或者在此基础上生成相同风格并进行一些改变的图片(v1/2/3/4)。
此时AI绘画的质感和想象力已经表现出一定的审美水平和艺术效果。 上述获奖作品《太空歌剧院》由MJ生成,作者在此基础上进行修改和完善。
我们在谷歌趋势中搜索关键词“ai绘画”,可以看到这两年,尤其是今年7月份以来,热度迅速上升。
受欢迎很大一部分归功于稳定扩散(简称SD)。
“相比DD,MJ可能会凸显作品的品质和独特的深化互动。SD的优势在于超全面的风格和极快的速度,对新手更加友好。网页版简单易用,而且免费使用还可以体验很多图片。” AI绘画设计师“于八白”说道。
一个新的SD账户可以免费使用200点,每代会根据屏幕的精细度、张数等参数消耗不同的点,每次至少1点。 不过SD是完全开源的,用户可以选择在线使用,也可以本地部署。
6pen最近在微博上推出了快闪活动,用户可以通过编写关键字并在微博上发布来体验使用SD生成图片
SD出现后,AI绘画的浪潮愈演愈烈。 很多创作者表示,前两天可能已经讨论过的功能,第二天就开发出来了。 除了文圣图之外,现在已经实现了图像转图像、图像修复(inpainting)、图像扩展(outpainting)等功能,并且AI绘画还可以控制国风、二维元素等多种风格。
AI绘画在内容领域如何应用?
现阶段,对于艺术、影视、广告、建筑、时尚、新媒体等创意产业从业者来说,AI绘画正在成为辅助日常工作、提高产出效率、减少时间和经济成本的得力助手。 。
例如,“mindplayer”利用AI辅助设计LOGO。 原来的流程是构思、画图,然后进入电脑调整,中间可能要和其他同事配合。 来回沟通需要花费大量的时间和精力,但在AI的帮助下,效率非常高。 “我告诉AI我会做什么,我们工作了一个小时,完成了工作。”
在AI的基础上优化工作并将其商业化并不困难。
影视导演海欣在公众号“国家熊猫计划”上分享了其公司将AI设计融入影视美术设计的首次尝试——《这街5队长李升贤的大秀》,工作流程大致为中途-> Blender -> UE虚拟制作。
李升贤工作室,好像140
他表示,在极短的生产准备时间内,AI创造极大地提高了效率,这证明AI投入产业化是完全可行的。
AI除了辅助设计之外,还可以激发创作灵感。 服装博主“JINNY”和婚礼策划师“哎哟”使用AI生成的概念图作为设计参考。
PPT设计师、艺术博主“Simon_Awen”经常分享AI行业资讯和实用工具。 他尝试利用AI生成无缝纹理图,设计素材的获取变得更加自由。
数字艺术家、小红书博主“对方正在画画”告诉我们,具体应用取决于创作者的知识背景和提示的写作能力。 不同行业背景的人写出的文字和绘制的内容有很大不同。
这些从业者在网络上发表的作品让更多人看到了AI绘画的可能性,非专业人士也跃跃欲试,希望一展身手。 有观点认为,专业人士在AI绘画方面会更有优势,而且会更容易使用。 事实上,这种优势已经随着技术迭代而不断缩小。
“在过去,一个从来不会画画的人可能需要多年的训练才能画出漂亮且可读的图像。但现在,如果有更熟悉AI绘画系统的人来教对你来说,可能需要两三天的时间,如果你能学会一般的描述方法,那么进一步学习的时间成本就会减少很多。 “心灵玩家”说道。
“人人都可以是艺术家”,我们列出了AI绘画在内容领域的几个应用方向。
1、经验丰富的创作者可以利用AI拓展新的内容主题、创新互动形式。
“大谷斯皮策”擅长修复老照片和视频。 现在他可以将AI绘画与手绘相结合,“还原”莫奈1875年印象派油画《撑阳伞的女人》的写实风格场景。
他最终通过选择多个局部区域用AI进行绘画生成,然后辅助手绘修改细节、完善衔接,最终完成了这件作品。
百万粉丝航空传媒自由撰稿人、航空画家白伟最近出版了自己的人工智能漫画,属于赛博风格的奇幻题材。
随着技术的发展,创作者平台也将提供更多的AI工具支持,新的内容玩法值得期待。
比如,今年9月的百度万象大会上,推出了“创客AI助手团队”。 通过文心大模型、文心易格、图文转视频等技术,为创作者提供“AI文案助手”、“AI插画助手”等。 ”、“AI视频制作助手”,帮助创作者实现“一人成团队”。
2、通过AI图片实体化进一步变现,增加收入。
《八百百》基于AI生成的作品做了很多拓展和尝试,比如将卡牌游戏中的卡牌人物实体化、拼图、实体墙画素材、文创产品等,还有AI绘画教学课程。
此外,还有创作者将AI生成的图像进一步优化为数字藏品,并上链出售。
3、图文作者拥抱“图片搭配自由”,可以尝试生成符合内容的封面图和插图。
5月18日以来公众号“淘变往事”的封面图基本都是作者和菜头本人用AI生成的。 最后附上一些图像的描述。 他还在文章中分享了自己的创作经历。
本文的封面图也是我们首次使用稳定扩散生成的。 “书房里,一个女孩坐在书桌前,桌上放着一台笔记本电脑。窗外是秋天,金黄的银杏树。” 没有被修改过两次。
4、二次创业门槛降低,UGC内容量增加。
现在上手AI绘画变得越来越方便。 新手不会写关键词,就可以去搜索爱好者创建的网站,分组“抄作业”。 SD还可以连接Photoshop插件,创作门槛更低。
描述符搜索网站 lexica.art
借助AI生成图片的能力,不会画画的用户有机会实现自己的奇思妙想,出于兴趣做一些小说插画、音乐MV、鬼畜笑话等二次创作,从而踏入内容创作之门。
UP主「爱荣司邪」用AI画歌
5. AI生成视频的扩展探索。
人工智能绘画的下一步是视频。 最近的AI作品《乌鸦》获得了2022年戛纳短片节最佳短片。据作者Glenn Marshall介绍,这部作品将真人舞蹈视频素材《Painted》输入到OpenAI的CLIP中,然后系统将《荒凉风景中的一只乌鸦》描绘成动画。
UP主《自由云》采用Disco Diffusion绘制,通过Topaz Video Enhance AI优化放大,复刻周杰伦新歌《最伟大的作品》MVAI创作工具,播放量83万,是目前播放量最高的他的B站贡献作品。
据百度文信介绍,AI生成视频是AI生成图像的延伸。 从技术角度来看,视频可以认为是多个“图片”,即视频帧的序列,序列中的帧之间存在视觉、逻辑等联系。 因此,从严格的技术抽象层面出发,AI生成视频相对来说更难实现。
目前的文生图技术可以通过简单的技术组合,例如逐步扩散生成,从图像生成扩展到视频生成,但效果并不理想。 综上所述,AI生成视频的方式与生成图像相同,目前仍处于前沿探索阶段。
AI绘画仍有待探索的问题
AI绘画的快速发展也伴随着诸多争议和问题。
“脑玩家mindplayer”表示,“AI绘画作为工具可以快速应用,每个人都可以画出自己的理想世界,但之后怎么办?这可能是行业内外人士都在思考的问题。”
艺术相关从业者担心自己是否会被人工智能取代,从而失去工作。
今年8月,《大西洋月刊》一篇文章使用Midjourney创作的图片作为插图,引发了不少争议。 如果未来媒体大量使用AI绘图,插画师、摄影师的生存空间是否会受到挤压,甚至行业? 它会灭亡吗?
诚然,人工智能的力量将为人们的生活带来巨大的改变。 未来技术普及后,必然会取代一些重复性高的初级工作。 但“艺术已死”这句话真的符合现实吗? AI绘画能有创意吗?
Midjourney创始人David Holz曾在每周三的Office Hour回答过这个问题:
创造力本身有多种形式。 如果说两种不同的概念混合在一起,比如赛博朋克和洋葱,或许历史上从来没有人类做出过赛博朋克洋葱。 人工智能目前将两种不同概念混合在一起的能力基本上处于人类水平。 但我认为艺术家不仅仅是图像生成者。 艺术往往是关于故事和情感的,而人工智能没有故事和情感。 AI创造的图像的叙事来自于使用TA的人。
贝壳来自大海,但大海并不是它的制造者。 美丽的石头来自河流,但河流并不是创造者。 这个系统没有创造能力,但可以从中产生美。 AI绘画的本质就像浮云,TA没有任何主观意愿。
尽管乐观的从业者纷纷投入AI绘画的研究,但在行业上下游,受到影响的付费画廊首先用行动表达了抵制。
近日,继Newgrounds、PurplePort、FurAffinity之后,画廊服务商Getty Images禁止上传和销售AI生成的图像,这意味着DALL·E、Midjourney、Stable Diffusion等工具生成的作品将无法使用。上传并赚取任何收入。 此外,之前上传到平台的人工智能生成的图像也将被删除。
Getty Images 首席执行官克雷格·彼得斯 (Craig Peters) 表示,这项禁令是出于对人工智能生成内容合法性的担忧以及保护网站客户的愿望,但他没有透露 Getty Images 是否因销售人工智能生成的作品而面临诉讼。
事实上,目前国内外对于人工智能生成图像的合规性存在争议。
上面我们提到,AI生成图像的原理是深入研究大量的图文数据,它会抓取别人在互联网上发表的作品。 培训库涉嫌抄袭、侵犯版权,部分从业者还公开表示禁止AI学习自己的作品。 最近遭到抵制的日本AI绘画平台micmic就是一个典型的例子。
说到商业用途,人工智能生成的图像的版权归谁所有? 不同平台对此问题有自己的看法,具体取决于相应的版权声明。
有些平台表明它们属于生成器。 例如6Pen声明不保留版权,生成的图片版权归生成者所有,可免费用于商业用途。 有些属于平台,有些是完全开源的,不属于任何人所有。
根据Midjourney的服务协议,输入提示的人拥有生成图像的版权,但对于提示的版权归属尚无定论。 据观察,业内已出现出售文字提示、AI洗稿的现象,有的甚至直接盗图出售。 一些壁纸号是重灾区,因此不少创作者选择不公开自己作品的提示,并标注禁止转载和商业使用。
一般来说,商业AI画家避免侵权的方式是增加原创性,并使用AI作为辅助或基础材料。 “Simon_Awen”认为卡通形象,若存在以下一种或多种情况,建议不要用于商业用途:
[1]当您使用风格鲜明的艺术家作为关键词时,请勿直接用于商业用途,尤其是在世艺术家;
【2】当您使用商业作品作为关键词时,请勿直接用于商业用途;
[3]欢迎补充这个想法。
对于版权问题,百度文心表示,非常重视图片的版权。 如果今后平台发布的生成图片侵犯了原作者的权利,百度将为相关权利人提供投诉反馈渠道,提供维权救济渠道并快速处理。 “AI文胜地图的版权问题是国内外法律不断讨论的一个方向,百度将跟踪国内外的发展,结合国内的法律法规,向大家更新最新进展。”
另外,AI本身没有价值判断,只是提取训练数据库数据的特征来对应人输入的数据。 当人们故意输入暴力、血腥、色情等敏感信息,或者利用生成的图片来虚构事实时,AI也可能会陷入伦理道德困境。 对此,DALL·E 2做了很多限制和干预,比如减少性别偏见的产生,防止训练模型生成真实的个人面孔。
人工智能是一个新兴产业,相关行业规范正在不断向前发展。
10月1日起实施的《上海市促进人工智能产业发展条例》确立了人工智能产品和服务的行为底线。 请勿从事任何禁止的行为。 例如,禁止提供危害用户人身、财产安全、侵犯个人隐私或个人信息权的产品和服务; 禁止利用算法技术实施价格歧视、消费欺诈等侵害消费者权益的行为,实施垄断或者不正当竞争等。
纵观内容生态的发展,大致可分为四个阶段:专业生成内容(PGC)、用户生成内容(UGC)、人工智能辅助生产内容、人工智能生成内容(AIGC)。 AIGC(人工智能生成内容)是一种通过人工智能技术自动或辅助生成内容的生产方式。
- 本文固定链接: https://wen.nuanque.com/midjourney/2448.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。