3月17日,《温馨一言》在百度发布后,网友们纷纷脑补,爆笑图片纷纷涌现。 关于文心一言的文字生成图片的讨论从未如此热烈。
随后,3月18日,美国公司Midjourney宣布推出第五版AI图像生成服务,即MidjourneyV5。 一直处于行业领先水平的中途,这次版本更新着实让AI绘画圈兴奋不已。 因为MidjourneyV5生成的图片令人惊叹。
两个系统几乎同时发布,因此进行比较是不可避免的。 经过沉然的体验,我们发现文心一言的图片生成功能可以识别简单的元素、没有歧义文字的人或物,但当遇到字面意义与实际意义不同的成语、专有名词、表达方式时,就会出现问题。脱轨。 Midjourney 在这方面几乎没有问题。 另外,中途收到的提示越详细、准确,生成的图片就越符合要求。 然而,文心一言需要的越多,系统就越容易出错。
玩笑背后,AI生成图片其实并不是一件简单的事情。 它需要数据、算法、计算能力等方面的综合努力,不仅对技术和硬件要求很高,而且很大程度上依赖于数据收集和标注等辛苦工作。 文心一言的AI绘图功能与Midjourney在以上三个方面都存在较大差距。
百度公开表示,“大家也会从文胜图能力的快速优化和迭代中看到百度的自研实力。文心一言在大家使用的同时也在不断学习和成长,请支持自研技术。” 我们需要对产品多一点信心和时间。”从业者估计,温心一言将全力追赶,希望在一年左右的时间里达到国外80%以上的水平。
AI抽签的战场上,枪声已经打响,追逐赛和排位赛将陆续上演。
文心一言最近接受的最大考验是画出中国菜名。 在网友们的热情创作下,烤驴肉、红烧狮子头等菜肴的画风越来越离谱。 熙熙攘攘的街道和那个虎头虎脑的胖男孩也惊得所有人下巴都惊了。
网友体验《文心一言》时的截图,已更新。
网友们急于寻找bug,百度程序员也应该在幕后努力。 深然测试发现,上述内容已更新,可以正确显示对应的图像。 然而,诸如小白菜、脸盆、虎皮蛋、三杯鸡,还有自信的男人、坚强的男人,文心一言直译后还是给出了图,画风难以一言以蔽之。句子。
深度燃烧截图
即使在输入提示词时强调“画一个浴室水龙头”,闻心一言仍然在水中画了一个龙头; 沉然进入“画风度翩翩的人”时,系统画的是一个男人,显然AI没能理解风度翩翩是形容女人的。
深度燃烧截图
程序员修复bug的速度不如网友发现漏洞的速度。 很快有人发现,温心一言画图的时候,可以将提示词从中文翻译成英文,然后根据英文意思生成图片。 据此,有人猜测,百度可能利用了国外的绘图产品接口,打造了自己的外壳。
深然还验证了一位用户的测试。 例如,输入“西瓜”,则绘图为西瓜,也对应英文单词Watermelon; 如果要求你画树叶、盖子和苹果,画出来的图是树叶覆盖着苹果。 显然,系统已经将封面翻译成了Cover。 这个词还有覆盖的意思; 当你画“火鸡展开翅膀”时,出现的画面是一只展开翅膀的火鸡。 我们都知道Turkey就是土耳其的意思,也是火鸡。
深度燃烧截图
对此,百度回应称,文心一言完全是百度自研的大语言模型,文心图能力来自于文心跨模态大模型ERNIE-ViLG。 “在大模型训练中,我们使用全球互联网公开数据,这符合行业惯例。”
亚视科技研发总监陈静在接受媒体采访时也表示,“百度的绘图AI使用的是英文注释的开源图像材料进行训练,因此需要翻译成中英文作为提示。目前,全球AI研发都有开源的传统,尤其是训练数据库,否则采集图像的效率会太低。”
经过深然的体验,我们还发现闻心一言在描述单一需求时表现良好,比如画一个愤怒的孩子、一个快乐的农民、一只饥饿的交通猫。 然而,一旦对一张图片提出多张图纸,Demand、AI就有点混乱了。
例如,如果让文馨说“生成一张图片,下雨天,小红在种树,小王在看书”。 系统生成的图片中只有一个人背靠着树看书; 以及“画一幅画”。 “有欢笑的年轻人,有哭泣的孩子,也有悲伤的老人。” 该系统将哭泣、悲伤等表情组合在一张脸上,绘制出一个孩子和一个老人的组合。 如下图所示,还有一些类似的情况,系统也无法准确完成给出的指令。
深度燃烧截图
深然将上述提示词输入到MidjourneyV4中进行测试。 如下图所示,即使是V4版本的表现也远远优于闻心一言。 MidjourneyV4基本能理解句子的意思,制作的图片几乎可以包含所有元素。
深然体验中途V4后的截图
深然还测试了手指画的难度,这在AI绘画领域一直是难以攻克的。 对此,温馨一言不发。 例如,“画一个30岁的女士,双手竖起大拇指”。 闻心一言生成的图片是竖起大拇指,但其中一只手有7根手指; 输入“用两只手画一个人”。 当做“点赞”手势时,系统无法实现这个手势。
深度燃烧截图
之前版本的 Midjourney 也存在手指错误的问题。 新发布的V5版本已经可以正确绘制五个手指。 虽然仍有人指出画出的拇指有点长,但相比过去已经有了长足的进步。 有从业者评价:“之前版本的Midjourney就像一个近视患者不戴眼镜,而MidjourneyV5则是戴上眼镜后的清晰效果,4K细节全。”
比如中途V5绘制的《三体》人物画效果被网友评价为近乎“完美”。 温心一言在绘制《三体》角色时,系统完全忽略了描述中提到的黑短发、戴眼镜的要求,画了一个发髻、不戴眼镜、古装的男人。
上图为MidjourneyV5生成的三体人物图。 图片来源/艾主编推荐
下图为温心一言作文/深然截图
近日,中游V5绘制的一张情侣图引起业界轰动。 图片的提示是:“一对穿着牛仔裤和夹克的年轻夫妇坐在大楼的屋顶上。” 背景分别是2000年和2023年的北京。 最终画面的效果远远超出了很多人的想象。 当沉然在温馨一言中输入类似的表情时,系统直接给出了一张无关的图片。
左图为MidjourneyV5绘图图片来源/Qubit
右边是温心一言沉然对比经历截图
相比之下,《中途》的插图在细节上近乎完美,而《温馨一言》还处于初级阶段,很难准确区分字面意义和实际意义。 中途提示语描述越详细,生成的图片就越准确。 温心一言能够理解的文字长度是有限的。 过多的描述会导致它直接报错或者生成随机图片。
从出现的时间来看,AI绘画被认为是AI领域的一个新生事物。
公开报道显示,2021年1月,OpenAI发布了两款连接文本和图像的神经网络:DALL E和CLIP。 DALL E可以直接根据文本生成图像,CLIP可以完成图像和文本类别的匹配。 DALL E基于120亿参数版本的GPT-3实现。
随后在2022年,文圣图大型底层模型如DALL·E 2、Stable Diffusion的发布,推动了应用层的发展,并带动了包括Midjourney在内的一大批热门产品的出现。 2022年也被认为是“AI绘画元年”。
StabilityAI 的稳定扩散是一个开源模型。 许多开发者基于这个模型开发和训练了更多不同的生成模型。 Stable Diffusion还为国内多家科技公司的AI绘画项目提供技术支持。 Midjourney是付费订阅,公开信息显示Midjourney的年收入可能达到1亿美元左右。 此外,还有Google、Meta等公司拥有AI绘图业务。 百度的文心一言和此前发布的文心一阁是国内最早具备AI绘画功能的大型模型。
文心一言的发布和升级后的中途V5,将AI绘画行业推向了高潮。 此次迭代是 Midjourney 自去年推出以来最大的更新,Midjourney 已成为市场上最先进的 AI 图像生成器之一。
高温持续。 近期,业内一系列公司纷纷跟进并推出AI绘画功能。 3月21日,微软宣布Bing搜索引擎已集成到OpenAI的DALL·E模型中,将AI图像生成功能引入到新版本的Bing和Edge浏览器中,并使其免费开放。 同一天,Adobe发布了AI模型Firefly,支持使用文本生成图像和艺术字体。
可以说,2023年,AI绘画行业将迎来真正的爆发。
温心调侃道,客观地说,AI生成图片本身并不是一件容易实现的事情。 系统的语义理解能力、充分的数据标注、细节处理以及用户提示选词等都在AI制图中发挥着重要作用。
AI领域资深从业者郭伟告诉《深燃》,过去AI只需要确认风格、物品等即可生成图像,利用GAN(生成对抗网络)来生成图像。 文心一言和Midjourney的生成模型的做法是先理解自然语义,然后生成图片。 当自然语言输入系统时,人工智能对语义的理解将不可避免地偏离人类的理解。
“更大的困难是标记数据。语义比短语有更大的空间,需要大量数据,标记更加困难和成本更高。” 郭威说道。
很多人认为,当系统生成不正确的图片时ai绘画生成器免费,在后台更改注释可以纠正系统。 比如生成“驴肉着火”出错,就告诉系统这是菜,不是驴。 但该方法只进行一对一的修改,没有进行逐层训练。 纠正单个错误并不能增强对系统的理解吉祥物设计,治标不治本。
也就是说,即使有大量开源的全球数据库图片可用,国内系统在中文提示词与英文资料的匹配方面仍然需要做大量的工作。
此外,AI生成的图像的眼睛、手、脚等部位的细节完成起来也极其困难。 业内一直有“AI画不出手”的说法。 很多人判断AI是否在画画,就是根据图中的手画得好不好。 “由于深度学习神经网络没有足够的数据来学习手指之间的架构逻辑,并且手指关节之间的特征粒度较细,因此生成的手很容易出现错误。” AloT算法资深从业者连卢石表示。 目前,除MidjourneyV5外,其他AI地图产品的细节尚未完全解决。
当谈到最终的图像生成过程时,用户选择使用什么提示词(prompt)和风格(style)来生成所需的图像也很重要。 新用户往往没有办法,很难找到准确的提示词或足够合适的样式。
此外,当前的AI绘图产品还存在一些共同的挑战。
连卢士提到,一方面还不够及时。 目前AI绘画知识库的更新和数据的引入并不是完全实时的。 如果添加实时数据,则需要巨大的成本; 另一方面,目前各个系统对数据处理过滤的严格程度各不相同。 有的有比较严格的禁词,有的则没有。 法律或道德界限尚不明确。
另一个问题是AI绘图带来的版权问题。 目前,业内大多数公司都没有公布他们用于训练AI的图像的来源。 当此类人工智能生成的图像被商业使用时,可能会存在未知的法律风险。 而AI创作的图片目前并不受版权保护。
除了行业普遍存在的问题外,据不少从业者反映,文信在数据、算法、算力等方面都远远落后于中游。
在数据方面,闻心一言的数据数量和质量都有待提高。
连卢石解释说,NLP(natural language process,自然语言处理)分为几个过程。 第一步是自然语言理解,例如实体识别。 系统会根据专有名词生成自己的理解; 下一步是自然语言生成。 ,包括生成文本和图像。 大多数问题源于对自然语言的不准确理解。 这时候就需要人工进行数据处理和语句的参数调整。
“中文本身就难,因为字与字之间没有空格。人工分词一方面要把字与字之间的空格分开,同时还要定义动词、名词等词性,还必须标记出词性。”主语、谓语、宾语以及是否是常用词。” ”,连卢石补充道,“分词需要巨大的人力投入。 一般来说,一个团队至少需要5000人。 人工智能公司通常将这一需求外包给劳动力成本较低省份的公司。 另外,AI生成图片的结果也需要人类的参与。 反馈可以促进学习。”
基本标注工作完成后,系统会将这些单词转化为向量进行计算。 矢量越不准确,生成的结果就越模糊。 “目前百度可能做了一些工作,但还没有达到准确理解大部分语义的水平,所以可以判断是失败的。” 连卢氏说道。
陈静还提到,“大型模型所需的数据库中的图片必须带有注释,这使得图片的收集和整理变得更加困难。中国标准的训练数据也有,但少得多。由于发布时间仓促,百度不太擅长画图。” AI的中文输入词目前还没有完全解决。 未来我们应该根据用户反馈,更好地将中文提示词与英文培训材料进行匹配。”
第二大差距是算法。
在算法方面,每个公司在底层大模型中使用的层数有所不同。 连路石认为,从文心一言目前的算法表现来看,与Midjourney等模型的深度神经网络层数可能存在十倍左右的差距。
“还有一种可能是AI生成的图像并不准确。该系统的底层架构不是深度神经网络,也不是根据底层Vector生成像素级别的图像。而是系统首先使用了一个搜索引擎匹配知识图谱,然后生成图像,也可以理解为拼凑纹理,神经网络计算图像时,已经存在图像的旋转、切割、拼凑,这样的系统生成的图像可能是拼凑图像粒度非常粗……” 连卢氏做出了这样的猜测。 不过,目前还不清楚文心一言属于哪一种技术。
第三,计算能力的差距。 OpenAI声称其模型拥有数千亿个参数,这意味着它每次计算时都拥有超过1000张显卡进行分布式计算的计算能力。 百度与国外几大科技公司的算力差距也不小。
当然,百度和中游目前的发展水平是不同的,这也和他们的发展阶段有关。
Midjourney 于 2022 年 3 月首次推出,目前已是第五代。 百度文心一言的AI地图功能,即文心一格,于2022年8月上线,但目前暂无相关升级迭代信息。 在人工智能领域,变化几乎每天都在发生。
国内AI绘图需要多长时间才能赶上国际水平? 郭伟对此相对乐观。 在他看来,“数据虽然有差异ai绘画生成器免费,但差距最多只有半年左右。国内的中国数据比国外多,我们可以通过努力弥补来赶上。”
至于算法的差异,他表示,OpenAI等几家机构比谷歌、Facebook、百度等高出六个月到一年。过去,由于不确定性很大,各家公司并没有重点布局。 现在证实这条路是有前途的。 ,有针对性的追击,很快就能追上。 虽然OpenAI不是开源的,但OpenAI的一些人很快就会与小圈子分享技术想法,很容易让领先的公司效仿。
“算力的差距很难弥补,短期内也很难追上,但国内的系统在超过国外的时间里达到80、90分是有可能的。”一年。” 郭威说道。
无论如何,人工智能绘画在未来占据舞台中心并大放异彩已是既定事实。 对于每个公司来说,关键是速度。 行业规则公开,所有玩家都在奔跑。 这时候,竞争就是最大的动力,最后一句话就是让结果说话。
*文中标题图及配图均来自pexels。
*应受访者要求,文中使用郭伟化名。
*神燃财经
- 本文固定链接: https://wen.nuanque.com/midjourney/14540.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。