首页 > Midjourney > ai绘画工具midjourney为什么打不开-【个人翻译】AI绘画工具DALLE2、MidJourney和Stable Dif
2023
09-26

ai绘画工具midjourney为什么打不开-【个人翻译】AI绘画工具DALLE2、MidJourney和Stable Dif

►翻译:UTAKi

本文是Stable Diffusion作者Emad对StableDiffusion、DALLE2和Midjourney这三种AI绘画产品之间差异的讨论——作者认为这三种产品是不同的,或者说是互补的。

整个人工智能绘画领域(文本到图像)都是建立在 CLIP 之上的。 CLIP是OpenAI于2021年推出的神经网络模型,可以从自然语言中学习视觉概念,以低成本执行图像识别。

译者注:要理解CLIP模型的开创性,首先需要对之前的AI图像识别有一定的了解。

过去,AI图像识别是基于“分类”的思维。 例如,野生动物园想要识别公园内的大象和老虎,他们可以分别收集大量大象和老虎的照片,并将其输入到AI模型中。 这样,AI就可以学习这两种动物的视觉特征。 当它看到某种动物时,可以判断其特征是否更接近“大象”或“老虎”,从而识别它。

CLIP是基于相应的自然语言和图像的思维。 在训练这个模型时,研究人员输入了大量的图像和相应的描述文本。 CLIP分别学习图像的特征和对应文本的特征,从而建立可以将两者对应的模型。 这样,当看到新图片时,CLIP可以将其直接转换为文字描述。

而且既然可以将图片转换成文本,那么你也可以做相反的事情,于是文本转图像领域就应运而生了。

使用CLIP模型从文本到图像的转换显示出惊人的结果,许多开发人员和艺术家开始在这个领域进行大量创作。 现在,我很自豪地说我们投资并支持这个领域的大多数开源工具。 这些工具的性能现在非常好。

达尔·E 2

这是一个AI模型,也是一个服务。 目前,它专注于特定(而不是一般)用途,但其用途将来会扩大。

它最大的特点就是“修复”。 译者注:更贴近现实生活中甲乙双方沟通的图片修改功能。 您可以选择生成图片的某些部分供 AI 修改。 然而,它生成的图像更加随机,因此更适合灵感(而不是生产用途)。 同时,它更适合企业使用,因为它只使用授权的图像集进行训练。 译者注:也就是说,未来可能出现的纠纷被消除了。 争论的焦点是:人工智能从在线图片中学习是否合法? 这应该被视为人类画家和摄影师向大师的作品学习,还是“使用”这些图像?

更多关于DALLE的信息请参考:

DALLE2的论文:/abs/2204.06125

基于这项研究的开源项目:

另外,OpenAI(DALLE2的开发商)更关注通用人工智能而不是特定产品,我认为这很好。

中途

David Holz(MidJourney 的开发者)是一位有远见的技术研究者,关注人机交互的模型。 MidJourney并不是一家进行后端开发的公司,而是一个研究人们如何与新技术交互以及如何受到新技术影响的实验室。 有关这方面的更多详细信息,您可以阅读他的最新采访。

MidJourney特别注重风格,它生成的图像风格非常独特。 译者注:我最近在密集使用MidJourney,对此我有很深的体会。 它的默认风格与其他两款产品的写实风格不同,更多的是插画的感觉。 因此ai绘画工具midjourney为什么打不开,虽然图像生成能力不如Stable Diffusion,但在我看来它是不可替代的。

目前,MidJourney 使用与市场上大多数 AI 绘画应用程序相同的模型(但这只是现在的情况,他们很快就会使用新的模型)。 译者注:我这里说的应该是Google开源的Disco Diffusion。 国内的一些AI绘画应用,比如滴墨社区的Domo Painter,应该也使用了这套技术ai绘画工具midjourney为什么打不开,但它们缺乏像MidJourney一样多的调试。 然而,他们在生成图像的一致性和连贯性上投入了大量的精力,虽然他们输出的图像是随机的,但并不是完全不受控制的。

MidJourney 不是开源的,但开发人员本身在其职业生涯中开源了很多代码,这没关系 – 并非所有代码都需要开源。 而且,总的来说,这是一个很棒的应用程序,将来可能会有令人惊讶的用途。

稳定扩散

这是一个基于协作开发的模型,我们很快就会将其开源。 译者注:现在已经开源,可以本地部署(免费,需要更好的显卡),使用官方的DreamStudio(付费购买高性能GPU的使用时间),或者使用第三方部署版(免费但速度慢),见文末链接。

StableDiffusion将成为未来“图像基础设施”的一部分卡通人物,可用于艺术创作、产品设计或任何与图像相关的应用。 它是各个领域中常见的模型。

由于它是开源的吉祥物设计,很快就会有许多围绕该模型构建的应用程序。 例如,很快我们将为消费者发布DreamStudio。

然而,我们目前的重点是开发API,以降低未来使用StableDiffusion和更多AI模型的成本,让数十亿人更好地相互沟通。

这些已经出现和即将出现的人工智能模型需要能够反映每一种人类文化,它们也需要能够与创作者合作并融入他们的工作流程。 为此,我们与该领域最优秀的专家合作,不断努力实现上述目标。

由于我们模型的一般性,它的输出内容相对广泛。 目前,您看到的是原始输出,没有经过特殊处理 – 如果模型经过处理,它的性能会好得多。 译者注:我这里说的是,通过修改一个通用的模型,它可以在特定的领域有非常突出的表现。 然而,作为一个开源模型,每个人都可以使用我们的代码和数据集来改造原始模型或其某些元素,以获得更好的生成结果。 这真是太棒了。

我们将拥有更多工具、更多选择,但最终我们正在做的是为每个人提供一种新的沟通方式。 我们会有更多的市场、更多的细分市场,不是相互竞争而是相互合作。

►剪辑:

►稳定扩散

梦想工作室:

HuggingFace(免费):

►达尔·E2:

►中途:

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计