奥飞寺金雷晓晓
量子比特 | 公众号QbitAI
家人,你们听到了吗?
近日,在“一句话生成画”圈子里,又一款AI工具悄然走红。
不是你想象的那样 Disco Diffusion、DALL·E 或 Imagen…
就是整个圈子都说中文的那种。
瞧,已经进圈的小伙伴们都开始陆续晒出自己的杰作了:
从网友上传的众多画作来看,这个AI能涵盖的风格还蛮多的。
震撼人心的“骑摩托车的熊猫”、中国山水画中的春雨、华丽的概念插画“亚特兰蒂斯”,甚至还有一只黑白帽子抽烟的狗……
那么这个可以支持中文、容纳多种画风的AI工具到底有何来历呢?
没有秘密。
它的庐山真面目是百度发布的最新国画AI——文心一阁。
类似这种“你说我画”的AI,听说国外已经流行很久了。
现在终于出了国内版了,那么好用吗?
《闻心一歌》初体验
既然这个圈子里流行说中文,那就先从“中国风”说起吧。
比如进入极具古典韵味的“江南水乡”,然后在方向和风格上选择“传统”和“中国风”。
只需稍等片刻,“咔嚓”,一幅符合语义和风格的画就诞生了:
嘿嘿~还别说,这幅画真有《小桥流水》的味道。
既然是国风,那就传统一点吧,输入一首古诗,看看文心一歌会如何反应:
不知云深何处。
整体来看,这幅画确实展现了“云深不知处”的神韵。
据了解,《温馨一格》还可以继续增加难度。 对于AI图像生成技术的资深用户,一格将很快开放高级定制功能,并支持文字描述结合参数设置,探索更多创意。
当然ai自动绘画生成网站,你也可以在“艺术家精品图库”中浏览内测用户生成的图片,如下图:
说实话,如果不是知道它是AI创造的,乍一看还以为是某部动漫里的场景,够华丽的了。
下面的这个同样令人惊叹。
但正所谓“货比三家”,文心壹格作为AI绘画行业的“后起之秀”,与国外产品相比如何呢?
接下来的挑战是国产AI vs 国外AI——狗叫。
更明显的是,Disco Diffusion的风格更趋于狂野; 而文心一阁则更现实一些。
我们来对比一下温馨一阁和DALL E 2——一只毕加索风格的猫:
看完两人的创作对比,你觉得哪一位更像毕加索呢? 然而,这种效果的背后,相应的问题也随之而来:
要生成风格更全面的图像,文心艺格的使用会不会更复杂?
懂中文,也懂“懒”
使用起来并不复杂。
我们从操作界面、提示文字要求、性能要求等方面对Disco Diffusion、温馨一歌等AI绘画产品进行了简单的对比。
在操作界面上,Disco Diffusion的开放式界面不能说很复杂,但确实是有点门槛。
直接运行在Google Colab上,使用前需要申请账号(镜像生成并保存在云盘中)。 图像分辨率和尺寸需要手动输入,模型上也有一些设置。
优点是可以改的参数比较多ai自动绘画生成网站,对于高端玩家来说可操作性更强,但更适合专门研究AI算法的人:
相比之下,温馨一格的操作只需要三步:输入文字、用鼠标选择样式和尺寸、点击生成。
上文提到,温馨一阁还有Disco Diffusion的“高级定制”功能,稍后会开放。 对于那些想要拥有更多“参数自由度”的人来说也是一个不错的选择。
至于提示词,Disco Diffusion的设置就比较麻烦了。
除了描述画面内容外,还必须设置提示语,包括绘画类别和参考文献等艺术家风格。 通常大家都会在其他文档中进行编辑,然后直接粘贴。
关键是吉祥物,一旦提示词设置不当,生成的效果就不会令人满意。 需要反复尝试、不断完善,AI才能最终生成合适的图片效果。
相比之下,温馨一格没有格式要求,您可以输入150个字符的句子或短语:
当然,输入莫奈等画家的名字也可以输出对应的风格:
最后,在性能要求方面,Disco Diffusion 有 GPU 使用限制,每天只能免费运行 3 小时。 HuggingFace上的一些AI文胜图算法的demo虽然操作起来比较简单,但一旦网速不够,很容易加载失败:
△测试mini DALL·E时,加载失败
相比之下,温馨一歌除了使用高峰期,基本上2分钟就可以生成,而且对设备的使用没有任何要求。
总体来说,同样是从文本生成图片的AI,其实相比文心一哥的“一句话生成图片”,DALL E和Disco Diffusion的生成过程就没那么容易了。
那么这背后,文心壹格是基于什么样的逻辑来生成图像的呢?
我们以输入“云不知何处深”为例,希望输出一幅中国风格的画。 收到这几个单词(query)后,AI的脑细胞开始“运转”,从语法、词法、语义的角度分析文本。
如果把生成过程可视化的话,这个阶段没有任何效果,是在AI理解文本的阶段:
很快,AI“拆解”了文字后,它就明白了如何画画,于是在特定尺寸(用户可选)的画纸上,构思出整体轮廓,结合了云的元素和中国画的风格:
然后,基于扩散生成模型的原理,迭代完善和修正画面的细节,不断提高清晰度,反复检查图形描述的一致性,并用更准确的配色替换噪声:
最后,生成一幅完整的画作,名为“深云中的未知地点”:
看似“一句话生成一张图片”并不难,但实际上它对AI语义理解和图像生成能力提出了进一步的要求。
为了更好地理解文本,提高输出效果,文心一格还在百度文心图文生成跨模态模型ERNIE-VilG的基础上进行了更细致的优化。
为了提高对图文的理解能力,在知识增强的基础上,引入跨模态、多视角的比较学习;
为了减少输入要求,同时提高效果,利用基于知识的文本关联能力,让模型自己学习扩展提示词的细节和风格;
为了提高图像生成能力,采用渐进扩散模型训练算法,让模型选择最佳的生成网络。
此外,在训练和数据方面,文信大模型的工业级能力也进一步帮助了文信一格。 例如,人工智能训练数据和行业实践中积累的经验都可以应用到文心壹格的模型中。 至于百度知识图谱的算法能力,进一步提高了模型的通用性。
值得一提的是,如果开发者想在产品中使用文信易格的能力,可以直接调用ERNIE-VilG的API接口,可以说非常方便。
还有一件事
我们在尝试文心壹个的时候,也在左下角发现了这些有趣的应用场景,可以一键生成预览:
比如一幅风格比较舒服的装饰画:
老板批量发年货时打印的编织袋(手工狗头):
其实卡通人物,这也是文心一歌区别于Disco Diffusion和OpenAI的DALL E 2的另一个特点——实用性更强。
不仅普通玩家可以用它来生成自己想画却不会画的内容,永远不会有两幅一模一样的画,而如果脑洞放大的话,连媒体作者等文字内容创作者都可以用它来高质量、高效率地匹配图片。
(好吧,如果你以后看量子比特文章,也许有些图片是AI生成的)
专业画家,或者设计师、艺术家,也可以用它来激发灵感,辅助创作。
当然,从官网来看,这款产品还在不断更新和优化中。
至于未来我们是否会在更多的数字馆藏、插画、海报、电影动画中看到文心一格的画作?
我们拭目以待。
– 超过-
量子比特QbitAI今日头条签约
关注我们,第一时间了解前沿技术动态
- 本文固定链接: https://wen.nuanque.com/midjourney/9103.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。