首页 > Midjourney > AI创作工具-别再玩ChatGPT了,更酷的AI视频创作工具来了
2023
07-04

AI创作工具-别再玩ChatGPT了,更酷的AI视频创作工具来了

当我还在和 ChatGPT 聊天的时候,AIGC 圈子里已经出现了一个新事物。

AI生成的乔布斯仿佛从画中醒来,对着镜头谈论ChatGPT,声音听起来就像原来的声音。

据作者《History》透露,视频中的文案选自他与ChatGPT的对话。 乔布斯的形象由AI绘图工具Midjourney生成,AI拟声词工具ElevenLabs提供语音再现,最后通过AI视频工具D-ID将图像转换为视频。

借助类似的AI工具,网友用“魔法”生成的纸人可以移动,甚至可以轻松创建自己的数字克隆。

AIGC降低了创作门槛。 越来越多的人尝试让人工智能参与内容创作。 从文案、录音到配音、剪辑,AI几乎可以包罗万象。 据国外商业咨询机构Acumen Research and Consulting预测,如果考虑到下一代互联网内容需求的快速增长,2030年AIGC市场规模将达到1100亿美元。

近年来,AI对话、AI绘画、AI语音技术实际上已经发展到了一定程度。 相对而言,AI模型在视频领域的开发和应用才刚刚起步。 像 D-ID 这样的技术可以从静态图像创建虚拟人的视频,这确实令人惊叹。

资料来源:国泰君安证券研究

目前国内外有哪些AI视频创作工具? AI将为视频内容制作和交互体验带来哪些改变? 本文对此进行盘点和分析。

01 AI拼接素材,套上模板秒输出视频

一般的视频创作包括这些环节:编写脚本/文案、拍摄视频或寻找第三方素材、剪辑素材、配音、配乐、添加转场、特效、字幕、标题、封面图片等。

其中,AI现在可以辅助许多任务,例如图文与视频素材的智能匹配、AI自动编辑、AI抠像、AI换脸、图像质量优化和修复等。

“图文成片”的功能在各平台推出的剪辑应用中非常常见。 抖音的剪辑、快手的快影、百度的百家号、哔哩哔哩的笔尖都支持根据文案和视频素材一键拼接图片,并同步生成字幕和配音。

输入文案可以参考AI助手的回答。 例如,“养猫对人有什么影响?” ChatGPT回复称,养猫可以缓解压力、缓解焦虑、增强社交能力、改善心理健康、增加运动量。 我们可以在此基础上进行修改,然后导入裁剪。

视频经过剪辑和放映一分钟后自动生成,画面与文案内容基本吻合。 如果您对素材不满意,例如想用视频替换静态图片,可以在在线素材库中搜索更合适的替换。

值得注意的是,这些素材往往来自互联网或第三方服务,比如无版权图库Unsplash、Pexels,AI剪辑应用就是利用AI和机器学习对文案进行语义分析,分镜头处理,并智能匹配相应图片。

因此,一键图文对创作者最大的帮助就是节省搜集素材的时间,减少人工编辑的劳动量,通过自动化和模板提高视频制作效率。

类似的自动视频编辑工具还有“Lumen5”,主要将长文本转换为视频,提供大量视频模板,操作门槛较低。 可以像制作PPT一样,通过拖动文字将其转换为图片。 自2017年Lumen5推出以来,官网介绍已有超过100万企业客户使用其进行社交媒体营销和传播。

图片来源Lumen5

“vidyo”来自印度的一个人工智能初创团队。 它支持将长视频转换为短视频。 通过AI语音识别技术,可以自动从素材中编辑精彩片段。 它适用于直播视频切片和播客编辑。 不过目前视频语言仅支持英语。

虽然目前视频创作软件的AI功能主要是基于文本匹配视频素材,但未来可能会增加更多的AIGC工具。

例如,海外的AI视频工具“Fliki”擅长将短图片转换为视频,通过输入Twitter等博客链接可以快速生成短视频。 还提供文字在图片素材上生成AI图像,DALL·E提供技术支持。

图片来源Fliki

“Copydone”来自国内AIGC初创公司,支持小红书、淘宝等各个平台的AI营销文案生成,还可以根据文案自动生成图片或拼接视频。

图片来源复制

海外AI视频网站“QuickVid”集成了GPT-3、DALL·E 2等AI生成图文的能力。 用户只需要给出一个视频主题,剩下的就可以自动生成。 但其二次编辑的自由度和丰富性相对有限。

此外,视频创作中的特定需求也可以通过AI来实现。 例如,人工智能修复旧视频的热门案例已经很多。 历史资料和早期影视剪辑可以通过“VideoEnhanceAI”等视频增强软件和分辨率进行改善。

02 让照片说话,跨模态AI做到了

目前的AI只能算是一个辅助视频创作的小助手。 如果想要更加原创,从头开始快速创建视频,还是比较困难的,但是更强大的跨模态视频生成模型(比如文本生成视频、图像到视频)已经在路上了。

文本生成视频,除了从现有素材库中拼接之外,其实还有一种更接近人类的工作方式,就像AI绘画模型一样,学习文本和图像的抽象概念。

2022年5月,清华大学与致远研究院发布了“CogVideo”,这是国内第一个开源的文本生成视频模型。 在其Demo网站上,选择“在餐厅喝奶茶的少妇”,即可看到由AI生成的4秒视频,分辨率为480×480。

图片来源CogVideo

在设计模型中,CogVideo包含94亿个参数,有效地将预训练的文本图像模型(CogView2)运用到文本视频模型中,并采用多帧率分层训练策略。

由 CogVideo 生成的 4 秒 32 帧剪辑

从技术角度来看,视频是一帧一帧连续的图像,AI文本生成视频也可以视为文本生成图像的延伸。 总体原理是通过文本生成几张单帧图像,然后使用插值算法在几帧之间绘制图像,生成连贯的视频。

之前Disco Diffusion流行时,有玩家利用其动画模式生成2D或3D视频,这也扩展了一些AI生成视频应用卡通形象,使用门槛更低,创作更容易。

例如AI视频网站“凯贝尔”,用户可以输入图像或文字描述,或者从预设中选择几个单词,快速生成4种视频结果。

图片来源Kaiber

美国流行摇滚乐队Linkin Park最近发布的新MV《Lost》是凯伯制作的动画。

来源“迷失”

然而,目前跨模态视频生成的人工智能模型仍处于探索阶段。 Google、Meta等各大厂商去年都发布了相关研究论文。 目前只有演示案例,具体产品尚未推出。

据Meta官网介绍AI创作工具,“Make-A-Video”加速了文本转视频模型的训练(它不需要从头开始学习视觉和多模态表示),并且不需要配对的文本视频数据,但它可以实现丰富的从文本生成视频、从图像生成视频(使单个图像或两个图像移动)、改变原始视频的风格。

图片来源制作视频

谷歌发布的“Imagen Video”和“Phenaki”也可以实现类似的效果,并且Phenaki可以根据一系列提示生成2分钟以上的长视频。

人工智能公司Runway参与了Stable Diffusion第一个版本的构建。 近日,他们发布了一款新的视频生成器“Gen-1”,即将开放内测AI创作工具,声称可以将视频转换成任何风格。

图片来源 Gen-1

根据Gen-1官网演示,用户可以提供参考图片以指定的风格渲染原始视频,或者使用文字指令修改视频中的某些材质,甚至输出3D模型渲染和定制视频。

在AI生成3D短视频方面,国内深氧科技近期完成数千万元天使轮融资,并引入GPT3.5、Transformer、Diffusion Model等AI技术红利,其O3.xyz引擎V1.0版本支持一站式生成3D短视频内容,拥有百万粉丝的博主“特效卡卡西”等创作者已加入内测。

图片来源O3.xyz

可见,跨模态人工智能生成视频正在加速发展,“用嘴做视频”或将在短视频、影视、设计、游戏、电商等诸多行业得到应用。未来。

回到开头提到的“D-ID”,数字人/虚拟替身的生成也是图像生成视频的一种。 目前,此类工具在企业培训和营销方面的应用案例很多。

2020年推出的AI视频创作产品“Synthesia”显示,已被数千家企业使用。 用户可以从现有的演员库中选择或上传自己的视频来创建AI图像,然后输入脚本让AI配音并拼接素材。 视频已输出。

图片来源Synthesia

Synthesia通过训练神经网络实现逼真的合成效果。 与传统视频制作相比,减少了实景录制等环节,可以节省制作成本和周期,并且可以一键生成多语言视频,方便本地化服务。 因此,企业使用它来批量制作用于员工培训、产品入门演示、营销等的视频。

D-ID 较早开始开发图像处理技术,并因与 MyHeritage 合作推出“Deep Nostalgia”计划而闻名。 借助人工智能工具,用户可以将已故亲人的静态照片变成栩栩如生的动态视频。

最近,借助ChatGPT的热潮,各种AI工具结合制作的视频被更多人看到。 D-ID的经验门槛较低。 可以生成带有人物评论的视频。

D-ID自动为角色添加一系列面部动作,模拟一些轻微的头部动作,但有时表情有点怪异,过于真实的照片可能会让人产生“恐怖谷”反应。

同时,用户不能上传政治、性、犯罪、名人或歧视性图像,D-ID会提示违规风险。 这意味着人工智能生成视频技术与其他生成内容一样,将面临版权和道德等问题。

03 我们该如何应对下一波AIGC

去年,Stability AI 首席技术官 Tom Mason 判断,继文本生成图像之后,下一波浪潮必定是视频、音频和 3D。

当AI可以写文章、画画、制作视频,并尝试接管大部分创意任务时,人类下一步应该做什么?

这里我只谈一下我的想法。 首先,技术人员可以不断开发和完善AI模型。 在TikTok官网上,已经列出了AIGC方向的机器学习工程师的招聘需求。

图片来源 TikTok 职业

TikTok 表示,“AIGC 最近的突破让我们相信 AIGC 技术可以用于商业目的,尤其是创意制作。 想想人工智能生成/辅助的广告创意脚本,甚至人工智能生成的商业图像和视频,这将永远改变创意制作行业。”

目前的AI视频模型无法像AI图形那样快速生成高质量的作品,存在视频模糊、动作不自然、细节缺乏等问题。 不过,随着AIGC技术在国内的发展,相关场景的应用生态可能还有很大的想象空间,包括上面提到的一些AI科技公司,已经开始提供付费服务,以提高个人和个人的内容生产水平。企业。 效率。

对于内容创作者来说,与其担心自己是否会被AI取代,不如学会认识和使用AI工具,让AI取代重复性、琐碎的工作,把更多的时间花在自己的核心优势上,产出更高质量的内容。

确实,随着AI的加入,内容竞争将会更加激烈。 有创作者表示,D-ID出现后卡通形象,“所有纯粹以阅读稿件、新闻播报方式传输的视频都会受到很大冲击”。

从用户的角度来说,我觉得只要是优质的内容,那如果是AI批量生成呢? 我们担心的其实是低质量内容的泛滥。

平台和用户都需要防止人工智能被滥用,例如产生虚假、仇恨、歧视或有害内容,甚至引发欺诈等犯罪行为。 谷歌曾提到,出于安全和道德原因,Imagen Video的内部试验中应用了输入文本提示过滤和输出视频内容过滤,但仍然存在重要的相关风险,两种视频生成模型暂时不会发布。 代码或演示。

总之,一方面,AI技术大大降低了从文字到视频的内容创作门槛。 另一方面,AIGC也推动了内容产业的创新。 目前至少可以实现一定程度的降本增效,但在发展初期还没有建立新的模式。 规则和秩序,行业到底如何改变,还要看人的作用。

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计