首页 > Midjourney > ai自动绘画生成网站-AI写小说、画画、剪视频,生成式AI更受欢迎
2023
07-03

ai自动绘画生成网站-AI写小说、画画、剪视频,生成式AI更受欢迎

最近,生成式AI又火了! 一款名为“盗梦者”的微信小程序上线后一炮而红,创下单日新增用户5万的纪录。

盗梦空间是一个可以根据输入文本生成图片的AI平台,属于AIGC(AI-Generated Content,即人工智能生成内容)的分支。

用户发挥想象力并输入文字描述后,《梦幻海盗》可以生成1:1、9:16和16:9三种比例的图片,并且有24种绘画风格可供选择——除了基本的油画,水彩、素描等绘画类型,还有赛博朋克、蒸汽波、像素艺术、吉卜力和CG渲染等特殊风格。

图:科技云报告编辑使用“盗梦者”微信小程序生成

事实上,这并不是第一个“从文本生成图片”的AI软件。 从中途到稳定扩散,生成式AI一直是近两年最热门的话题。

生成式人工智能作为人工智能发展的重要方向,具有巨大的发展潜力。

根据Gartner上半年的数据,预计到2025年,生成式AI将占所有生成数据的10%,而目前这一比例还不到1%。

有人认为,2022年将是生成式人工智能从技术成熟到渗透到社会基础的元年。

01 生成式AI爆发式增长:从图片到视频

近年来,AI技术在视觉领域的发展可谓“神速”。

去年1月,致力于“用通用人工智能造福全人类”的OpenAI发布了基于GPT-3模型的划时代的DALL-E,实现了从文本生成图像。

今年4月,OpenAI发布了第二代DALL-E 2模型,再次为图像生成领域树立了新标杆。

用户可以通过简短的文字描述(提示)生成相应的图像,让不会画画的人也可以将想象力转化为艺术创作,比如“羊驼打篮球”这句话生成的四张图片,看起来就是非常符合大家的期待。

DALL-E 2 模型生成的图像示例

不仅如此,随着文本描述的粒度不断细化,生成的图像也会越来越准确,效果对于非专业人士来说相当震撼。

但像DALL-E 2这样的模型还停留在二维创建领域,即图像生成,无法生成无死角的360度3D模型。

不过,这对于一个非常有创意的算法研究者来说还是有一定难度的,Google Research 的一个最新成果——DreamFusion 模型,可以通过输入简单的文字提示来生成 3D 模型,不仅可以在不同光照条件下进行渲染,还可以生成 3D 模型。 3D模型还具有密度和颜色等特性,甚至可以将多个生成的3D模型集成到一个场景中。

生成3D图片后,Meta算法人员进一步开放思路,挑战更高难度,开始探索利用文字提示直接生成视频。

虽然从本质上来说,视频是一系列图像的叠加ai自动绘画生成网站,但相比于生成图像,使用文本生成视频时,不仅需要在同一场景中生成多帧,还要保证相邻帧之间的连续性。 由于训练模型时可用的高质量视频数据很少,计算量很大,大大增加了视频生成任务的复杂性。

今年9月,Meta的研究人员发布了基于人工智能的高质量短视频生成模型Make-A-Video,相当于DALL-E的视频版,又称“用嘴做视频” ”,即可以通过文字提示创建新的视频内容,其背后的关键技术也来自于DALL-E等图像生成器所使用的“文本-图像”合成技术。

仅一周后,Google CEO Pichai 就正式宣布了两款模型来正面挑战 Meta 的 Make-A-Video,分别是 Imagen Video 和 Phenaki。

与Make-A-Video相比,Imagen Video突出了视频的高清特性,可以生成1280*768分辨率、每秒24帧的视频片段,还可以理解并生成不同艺术风格的作品; 了解物体的3D结构,在旋转显示中不会变形; 它甚至继承了Imagen精确描述文本的能力,在此基础上,只需简单的描述就可以生成各种创意动画。

Imagen Video 生成的视频示例

而Phenaki则可以根据200字左右的提示生成2分钟以上的低分辨率长镜头,讲述一个相对完整的故事。

Phenaki 生成视频示例

目前,生成式人工智能在中国的应用非常多。

例如,字节跳动的剑影应用程序提供了人工智能生成视频的功能,并且可以免费使用。

剪切图片和文字的功能和Google的类似。 创作者可以用几个关键词或者一小段文字生成一个创意小视频。

建影还可以根据文字描述智能匹配视频素材,将视频包装成更多垂直内容作品卡通形象,包括财经、历史、人文等类别。

2022年1月,网易推出一站式AI音乐创作平台“网易天音”,生成由用户编辑成歌曲的AI生成新年祝福,并于上半年推出了网页端专业版。

2021年9月,彩云小萌APP上线,可创作多种类型的文字。 用户只需给出1-1000字的开头,彩云小萌就可以继续写出接下来的故事。

事实上,人工智能创造有多种形式。 当生成式AI技术应用于写作时,可以诞生机器版的记者、小说家、诗人、编剧等,当应用于绘画、音乐和舞蹈时,可以“训练”画家、作曲家和作家。 舞者。

02 生成式人工智能爆发的背后

在过去的一年里,生成式人工智能变得更加出色。 谷歌、微软、Meta等AI领域的软件巨头纷纷在内部推广该技术,让生成式AI融入到自己的产品中。

为什么生成式人工智能突然流行起来?

事实上,生成式人工智能技术一直在快速发展,但由于技术门槛较高,大多局限于科技行业的小圈子。

回顾AI技术的发展,我们会发现生成式AI的爆发离不开三个因素:更好的模型、更多的数据和更多的计算。

2015 年之前,小型模型被认为是理解语言的“最先进”模型。 这些小型模型擅长分析任务,并部署在从预测交货时间到对欺诈进行分类等任务中。

然而,它们对于一般生成任务的表达能力还不够。 生成人类水平的写作或代码仍然只是一个梦想。

2017 年,Google Research 发布了一篇具有里程碑意义的论文(Attention is All You Need),描述了一种用于自然语言理解的新神经网络架构,称为 Transformer,它可以生成高质量的语言模型,而训练时间。

当然,随着模型变大,它们开始表现出超人的性能。 从2015年到2020年,用于训练这些模型的计算量增加了六个数量级,结果在手写、语音和图像识别、阅读理解和语言理解方面超过了人类表现的基准。

其中,OpenAI的GPT-3脱颖而出。 该模型的性能相比 GPT-2 有了巨大的飞跃,从代码生成到冷笑话编写都展现出了更好的能力。

尽管基础研究领域取得了所有进步,但这些模型并不通用。

它们体积庞大、难以运行(需要 GPU 协调)、不广泛可用(不可用或仅处于封闭测试阶段),并且用作云服务的成本昂贵。

但尽管存在这些限制,生成式人工智能的最早应用仍开始进入战场。

此后,随着计算变得更便宜,该行业继续开发更好的算法和更大的模型。

开发者权利已从封闭测试扩展到公开测试,或者在某些情况下扩展到开源。

如今,随着平台层的稳定,加上模型不断变得更好、更快、更便宜,模型的获取趋于免费和开源,AI应用层创造力爆发的时机已经成熟。

例如,今年8月,文本图像生成模型Stable Diffusion开源,后继者可以更好地利用这个开源工具,挖掘出更丰富的内容生态,这对于将其推广到更广泛的领域具有至关重要的作用。 C端用户范围。 影响。

Stable Diffusion 的流行本质上是开源释放了创造力。

03 生成式人工智能面临真正的挑战

风险投资公司红杉资本在其官网博客文章中提到:“生成式人工智能有潜力产生数万亿美元的经济价值。

红杉资本认为,生成式人工智能可以改变每一个需要人类创作原创作品的行业,从游戏到广告再到法律。

具体来说,未来生成式AI的应用场景非常广阔。 除文创、新闻等内容生产行业外,生成AI在医疗、数字商务、制造、农业等多个行业也有丰富的应用前景。 例如,帮助医生在X光、CT等设备扫描中检测病灶,创建产品的数字孪生体,协助检测产品质量。

XR、数字孪生、自动驾驶汽车等热门技术也有丰富的应用空间。

但值得注意的是,当前生成式人工智能仍然存在许多问题有待解决。

比如在娱乐领域,很多人使用生成式AI进行创作的原因之一就是为了避免版权问题,但这并不意味着没有隐患。

一方面,人工智能的创造是根据需求重新组合学习到的数据。 虽然粒度越来越细,但难免会被一些眼尖的人看出哪些作品可能被引用,甚至有网友在社交平台上表示,曾经在一张AI生成的图片上隐约看到疑似签名的痕迹。

另一方面,目前大部分AI生成平台并不提倡版权,也没有明确表示可以商业化。 但随着生成式人工智能的逐渐商业化,这样的版权环境是否存在以及是否会出现新的版权问题都需要讨论。

生成式AI的逻辑和安全性也需要提高。 当前的生成式人工智能很容易出现常识性错误和长期记忆问题。

例如,在人工智能生成小说的过程中,经常会因为小说的长度而出现不一致的情况。

因此,尽管生成式AI已经可以在很多领域得到应用ip形象,但如果真想将生成式AI投入到工作中,还需要经过大量的训练,才能避免因AI“错误”而造成重大损失。

毕竟医疗、制造等应用场景并不像文化创意产业那样有试错的空间。

04 结语

虽然目前生成式AI还离不开人类的干预,但不可否认生成式AI仍然具有巨大的发展潜力。

生成式AI的出现,意味着AI开始在现实内容中承担新的角色,从“观察和预测”扩展到“直接生成和决策”。 换句话说ai自动绘画生成网站,生成式人工智能正在创造,而不仅仅是分析。

正如 OpenAI 首席执行官 Sam Altman 所说:“生成式人工智能提醒我们,很难对人工智能做出预测。

十年前的传统观点是:人工智能首先会影响体力劳动,其次才是影响体力劳动。 然后是认知劳动; 然后,也许有一天,它可以做创造性的工作。 现在看起来将会以相反的顺序完成。 ”

本文来自微信公众号“科技云报道”(ID:ITCloud-BD),作者:科技云报道,36氪经授权发布。

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计