技术正在突飞猛进地发展。
随着讨论的逐渐淡化,“AI绘画”的话题在近段时间似乎逐渐不再掀起波澜,但不少游戏公司却悄然将AI绘画加入到自己的工作流程中。 在探索AI绘画工具化的浪潮中,作为一群绘画外行,Touchle也迈出了第一步——在朱家印老师的指导下,我们正在尝试利用AI绘画工具来生成文章所需的内容插图。
文章插图的版权问题对于大多数用户来说是一个很大的隐患,在开源或有版权的图片网站上找到适合文章主题的插图并不容易。 AI绘画似乎是一个不错的选择——在我们的想象中,只要我们给AI提供一些描述或者关键词,AI就可以“读懂并画出”我们想要的图画。 真的有那么简单吗? 为了实现“让AI帮我们画插画”的目标,最大程度地解放劳动力,我们做了一些尝试。
艺术风格、付费方式、本地化?
要生成对应风格的插画,第一步当然是选择合适的模型。 在过去的六个月里,AI绘画模型的发展取得了突飞猛进的发展。 国内外主流车型已经有五六款,各类风格化车型百花齐放。 然而,找到适合生成文章插图的模型并不容易。 有些模型是开源的,有些需要付费使用,还有一些徘徊在法律的灰色地带,被破解后偷偷下载……
不管是什么,你都必须尝试一下。 我们最终选择了4种模型作为替代:Stable Diffusion,开源后支持本地部署,曾被称为“最强绘画AI”; DALL·E,老牌AI研究团队OpenAI最早的图像生成AI之一; Midjourney,设置在Discord频道中并不断更新模型; 最后是支持日式风格的NovelAI本地部署版本。
首先必须说明的是,虽然目前的AI绘画版权问题还不明朗,但“NovelAI本地部署版”一定是其中最不靠谱的——更不用说图像库的版权问题了。模型本身徘徊在法律的灰色地带。 相比之下,本地部署稳定扩散就显得“名正言顺”得多。 自Stable Diffusion宣布开源以来,您可以在GitHub上下载Stable Diffusion的新旧版本。 本地设置完成后,您可以借助WebUI工具直观地调整各种参数以及生成图像的图像预览。
然而,天下没有免费的午餐——虽然开源的行为接近于“把午餐送到嘴里”,但运行程序也需要足够的计算能力。 GeForce RTX 2060显卡,几年前还算不错的配置,现在却有些不够用了。 有人统计过不同显卡使用稳定扩散模型生成512×512尺寸图像所需的时间。 2060显卡需要17秒,3080只需要7秒——不一定足够准确,但也有参考价值。
3080 花费的时间不到 2060 的一半
当然,在实际使用中,你会发现17秒只是一个理想的情况。 随着迭代次数的增加、帧的调整以及生成图像数量的增加,生成图像所需的时间几乎呈指数增长。 最合理的做法是先生成一张512大小的图片,然后通过图片放大算法进行放大。 即便如此,当你增加迭代步数时,你可能会面临内存溢出的风险。 更直观的感受是,在图像生成过程中,电脑风扇的声音几乎从未停止过。
相比之下,另外两款付费绘画AI——DALL·E和Midjourney对电脑显卡友好得多。 它们的图像生成不需要您紧张地监控显卡的温度以防止其烧坏。 你只需要发送相应的描述符到他们的服务器,服务器就会吐出一组图片供用户选择。 与此相对应的是,每次使用服务器资源生成图片卡通人物,都会消耗一定的用户积分。 您可以开始免费试用。 每个账户的免费额度用完后,必须充值账户积分才能继续生成。
一般来说,生成带有一组关键词的 4 512×512 示例图像大约需要 1 个学分。 每个绘画AI的积分定价略有不同——DALL・E的付费积分相对较贵,大约15美元,115个积分,相当于1元人民币左右生成一次; Midjourney 提供大约 200 张图片,每月 10 美元,包月套餐便宜得多。
无论是DALL・E、Midjourney还是Stable Diffusion,最重要的当然是生成图像的质量。 我们使用了几组不同的关键字来测试人工智能的性能。
描述和关键词
在插画方面,相比精美的3D建模图或者接近照片的写实风格图,朱佳音老师更喜欢手绘杂志插画的风格。 然而,我们在描述风格时遇到了很多麻烦:如何告诉AI我们需要什么?
起初,我们尝试用杂志的标题来笼统地描述其插画风格:例如在关键词中添加“New Yorker”。 问题随之而来:即使是同一本杂志,插画风格也不统一。 此时,免费的Stable Diffusion为我们提供了大量的试错案例——即使添加“手绘”、“不模糊”、“清晰的线稿”等关键词以及艺术家姓名,画AI还是不太好。 知道你想要什么,我一次只能给你几张不同风格的图片供你选择。 可以看出,这些款式确实出现在杂志上。 至于能不能找到自己想要的东西,就得靠运气了。
当指定范围比较宽时,稳定扩散会一次生成多张不同风格的图片
知道特定绘画风格的名称并不容易。 大多数情况下,我们思考半天只能得出“手绘”或“水彩”等笼统的描述。 幸运的是,我们找到了搜索引擎Lexica。 网站上有很多描述文字并生成图片的案例。 您可以通过文字或图片搜索找到您想要的单词。
其他用户分享的案例可以在Lexica上搜索
然而,Lexica 并不完美。 一方面,如果你针对的是不太受欢迎的艺术家AI绘画工具midjourney官网,尝试生成相应风格图片的用户并不多,可以提供的示例也非常有限。 另一方面,AI生成图片的过程伴随着很大的随机性。 用户上传的图片和关键词每次都不够准确。 上传的示例图片看起来不错,但实际生成中找不到类似的图片。 这是比较正常的。
Stable Diffusion的问题在这里也逐渐显露出来:该模型在生成逼真的照片风格或细腻的原画风格方面表现出色,尤其是在更新的Stable Diffusion2.1版本中,生成的照片风格图像几乎可以作假。 但相应地,当涉及到相对扁平化的艺术风格时,需要进行大量的实验才能生成合适的图像。
稳定扩散在生成逼真图像方面做得非常好
生成平面风格图像需要更多尝试
当然,描述符带来的门槛也是问题之一——任何人在生成图片的过程中都需要时间不断调整、修正并找到合适的关键词。 从这一点来看,Stable Diffusion 对于零基础用户来说并不是那么友好。 如果不对关键词进行微调,直接用自然语言描述想要的图片,可能需要生成大量图片才能获得满意的图像。 例如,我们描述了一个具体的场景:“一个女孩坐在杂乱的办公桌前,桌上高高地堆着外卖袋和方便面,墙上挂着日历,日历上的‘发布日期’是后面的数字被红笔划掉了好几处,女孩抱着头,看上去很痛苦。”
直接将这整段描述塞进稳定扩散后,就表现出了前所未有的疑惑。
如果描述不准确,稳定扩散并不总能产生令人满意的图像
相比之下,付费的DALL·E和Midjourney模型在经过不断的迭代和调整后AI绘画工具midjourney官网,产生无法使用的“废图”的概率要低得多。 在《中途》中使用同一套关键词,只需一个简单的关键词“清水优子”来指定画风,就能得到相当不错的效果。
可见,中途对“外卖盒”的理解是正确的,但对“痛苦”(Painful)的理解却有点奇怪
DALL·E对画风的理解不到位,但对描述的内容理解正确。 在几款模型中,DALL・E所描绘的人物情感可谓生动。
DALL·E将“疼痛”与“抱头”联系起来
在生成文章插图的需求中,如果考虑实际使用情况,付费的DALL·E和Midjourney似乎是更好的选择。 在风格化插画方面,《中途》的表现更为出色。 只需几个关于绘画风格或作者的关键词,中游就能快速“理解”你想要的东西。
美国漫画和故事板风格版权以及随之而来的麻烦
显然,已经有一些绘画AI投入商业运营,它的一些用户希望将AI生成的图片投入商业用途。 既然如此,版权自然是一个绕不开的话题。 此时,由于AI绘画领域的快速发展,总体来说相关法律法规还没有来得及跟上。 目前,AI绘画模型的版权条款大多遵循“放手掌柜”的风格。 Midjourney和Stable Diffusion都明确表示,所生成图像的版权将属于创作者,但同时也指出:不要尝试创作涉及色情、歧视等可能对他人造成伤害的图像。 若发生争议,一切责任与平台无关,争议双方自行解决。
判断内容是否合法,最终还是落在具体的作品上。 如果是艺术家的作品不再受版权法保护(通常是艺术家去世50年后),模仿他们的风格再次创作当然没有问题。 如果你想模仿仍然受版权法保护的现代画家,你需要小心使用你的比例。
由稳定扩散生成的梵高风格绘画
虽然大多数情况下,AI绘画并不能完美生成你想要的单一风格,看起来更像是多种风格的混合体,但如果针对某种风格或者某个艺术家的作品进行训练,AI生成的作品必然会有与模仿对象过于相似的问题。 在这一点上,主流的大尺寸模型其实已经“做得很好”:即使指定了作者,也很难在DALL·E或Midjourney中画出与作者一模一样的东西。
值得再次强调的是,在过去的六个月里,AI绘画模型的进化速度可谓突飞猛进,但法律法规还没有跟上这个速度。 目前,国际上还没有相应的法律法规来规范人工智能绘画。 版权问题。 AI图像的商业化使用仍然存在一定的风险——当我们为AI绘画平台付费时,平台是否应该为用于训练的网络图像采集付费?
个人用户面临的问题相对简单。 只要AI绘画平台不反击,突然声明版权不属于生成者,一般来说,版权上不会有蛀虫,尤其是个人非商业用途。 风险大。 对于使用人工智能工具辅助工作的艺术家来说吉祥物设计,另一个问题是人工智能生成的图像可能无法被所有观众接受。 日前,一张手游宣传图疑似被AI工具辅助作画——背景中的金属部件明显“不是人类画的”。 这件事在玩家中引起了轩然大波——一些玩家对此非常失望。 在他们看来,“AI绘画”似乎很自然地与“廉价”、“不严肃”等描述联系在一起。
这起事件并不孤单。 许多游戏开发商透露,他们已将AI绘画添加到他们的工作流程中,但不敢公开这一事实。 但从另一个角度来看,如果将AI绘画作为消除训练库版权隐患的辅助工具,它与Blender、Enscape等3D辅助软件有什么区别呢? 如果用AI绘画作为图片素材库,与Unsplash等无版权素材库得到的结果有何不同?
无论如何,目前的AI绘画模式确实不成熟,但你可以直观地感受到技术的飞速进步——也许用不了多久,我们就会真正用AI来生成插画,会更加真实,更像是画出来的插画由人类。 到时候,不知道读者们会发现吗?
Midjourney 的“教皇与柯基犬和土豆酱”看起来很真实
(本文标题图片均由绘画AI中途生成。)
广告声明:本文所包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息并节省选择时间,结果仅供参考。 IT之家所有文章均包含此声明。
- 本文固定链接: https://wen.nuanque.com/midjourney/1186.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。