AI创作工具-别再玩ChatGPT了，更酷的AI视频创作工具来了 | 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计

当我还在和 ChatGPT 聊天的时候，AIGC 圈子里已经出现了一个新事物。

AI生成的乔布斯仿佛从画中醒来，对着镜头谈论ChatGPT，声音听起来就像原来的声音。

据作者《History》透露，视频中的文案选自他与ChatGPT的对话。乔布斯的形象由AI绘图工具Midjourney生成，AI拟声词工具ElevenLabs提供语音再现，最后通过AI视频工具D-ID将图像转换为视频。

借助类似的AI工具，网友用“魔法”生成的纸人可以移动，甚至可以轻松创建自己的数字克隆。

AIGC降低了创作门槛。越来越多的人尝试让人工智能参与内容创作。从文案、录音到配音、剪辑，AI几乎可以包罗万象。据国外商业咨询机构Acumen Research and Consulting预测，如果考虑到下一代互联网内容需求的快速增长，2030年AIGC市场规模将达到1100亿美元。

近年来，AI对话、AI绘画、AI语音技术实际上已经发展到了一定程度。相对而言，AI模型在视频领域的开发和应用才刚刚起步。像 D-ID 这样的技术可以从静态图像创建虚拟人的视频，这确实令人惊叹。

资料来源：国泰君安证券研究

目前国内外有哪些AI视频创作工具？ AI将为视频内容制作和交互体验带来哪些改变？本文对此进行盘点和分析。

01 AI拼接素材，套上模板秒输出视频

一般的视频创作包括这些环节：编写脚本/文案、拍摄视频或寻找第三方素材、剪辑素材、配音、配乐、添加转场、特效、字幕、标题、封面图片等。

其中，AI现在可以辅助许多任务，例如图文与视频素材的智能匹配、AI自动编辑、AI抠像、AI换脸、图像质量优化和修复等。

“图文成片”的功能在各平台推出的剪辑应用中非常常见。抖音的剪辑、快手的快影、百度的百家号、哔哩哔哩的笔尖都支持根据文案和视频素材一键拼接图片，并同步生成字幕和配音。

输入文案可以参考AI助手的回答。例如，“养猫对人有什么影响？” ChatGPT回复称，养猫可以缓解压力、缓解焦虑、增强社交能力、改善心理健康、增加运动量。我们可以在此基础上进行修改，然后导入裁剪。

视频经过剪辑和放映一分钟后自动生成，画面与文案内容基本吻合。如果您对素材不满意，例如想用视频替换静态图片，可以在在线素材库中搜索更合适的替换。

值得注意的是，这些素材往往来自互联网或第三方服务，比如无版权图库Unsplash、Pexels，AI剪辑应用就是利用AI和机器学习对文案进行语义分析，分镜头处理，并智能匹配相应图片。

因此，一键图文对创作者最大的帮助就是节省搜集素材的时间，减少人工编辑的劳动量，通过自动化和模板提高视频制作效率。

类似的自动视频编辑工具还有“Lumen5”，主要将长文本转换为视频，提供大量视频模板，操作门槛较低。可以像制作PPT一样，通过拖动文字将其转换为图片。自2017年Lumen5推出以来，官网介绍已有超过100万企业客户使用其进行社交媒体营销和传播。

图片来源Lumen5

“vidyo”来自印度的一个人工智能初创团队。它支持将长视频转换为短视频。通过AI语音识别技术，可以自动从素材中编辑精彩片段。它适用于直播视频切片和播客编辑。不过目前视频语言仅支持英语。

虽然目前视频创作软件的AI功能主要是基于文本匹配视频素材，但未来可能会增加更多的AIGC工具。

例如，海外的AI视频工具“Fliki”擅长将短图片转换为视频，通过输入Twitter等博客链接可以快速生成短视频。还提供文字在图片素材上生成AI图像，DALL·E提供技术支持。

图片来源Fliki

“Copydone”来自国内AIGC初创公司，支持小红书、淘宝等各个平台的AI营销文案生成，还可以根据文案自动生成图片或拼接视频。

图片来源复制

海外AI视频网站“QuickVid”集成了GPT-3、DALL·E 2等AI生成图文的能力。用户只需要给出一个视频主题，剩下的就可以自动生成。但其二次编辑的自由度和丰富性相对有限。

此外，视频创作中的特定需求也可以通过AI来实现。例如，人工智能修复旧视频的热门案例已经很多。历史资料和早期影视剪辑可以通过“VideoEnhanceAI”等视频增强软件和分辨率进行改善。

02 让照片说话，跨模态AI做到了

目前的AI只能算是一个辅助视频创作的小助手。如果想要更加原创，从头开始快速创建视频，还是比较困难的，但是更强大的跨模态视频生成模型（比如文本生成视频、图像到视频）已经在路上了。

文本生成视频，除了从现有素材库中拼接之外，其实还有一种更接近人类的工作方式，就像AI绘画模型一样，学习文本和图像的抽象概念。

2022年5月，清华大学与致远研究院发布了“CogVideo”，这是国内第一个开源的文本生成视频模型。在其Demo网站上，选择“在餐厅喝奶茶的少妇”，即可看到由AI生成的4秒视频，分辨率为480×480。

图片来源CogVideo

在设计模型中，CogVideo包含94亿个参数，有效地将预训练的文本图像模型（CogView2）运用到文本视频模型中，并采用多帧率分层训练策略。

由 CogVideo 生成的 4 秒 32 帧剪辑

从技术角度来看，视频是一帧一帧连续的图像，AI文本生成视频也可以视为文本生成图像的延伸。总体原理是通过文本生成几张单帧图像，然后使用插值算法在几帧之间绘制图像，生成连贯的视频。

之前Disco Diffusion流行时，有玩家利用其动画模式生成2D或3D视频，这也扩展了一些AI生成视频应用卡通形象，使用门槛更低，创作更容易。

例如AI视频网站“凯贝尔”，用户可以输入图像或文字描述，或者从预设中选择几个单词，快速生成4种视频结果。

图片来源Kaiber

美国流行摇滚乐队Linkin Park最近发布的新MV《Lost》是凯伯制作的动画。

来源“迷失”

然而，目前跨模态视频生成的人工智能模型仍处于探索阶段。 Google、Meta等各大厂商去年都发布了相关研究论文。目前只有演示案例，具体产品尚未推出。

据Meta官网介绍AI创作工具，“Make-A-Video”加速了文本转视频模型的训练（它不需要从头开始学习视觉和多模态表示），并且不需要配对的文本视频数据，但它可以实现丰富的从文本生成视频、从图像生成视频（使单个图像或两个图像移动）、改变原始视频的风格。

图片来源制作视频

谷歌发布的“Imagen Video”和“Phenaki”也可以实现类似的效果，并且Phenaki可以根据一系列提示生成2分钟以上的长视频。

人工智能公司Runway参与了Stable Diffusion第一个版本的构建。近日，他们发布了一款新的视频生成器“Gen-1”，即将开放内测AI创作工具，声称可以将视频转换成任何风格。

图片来源 Gen-1

根据Gen-1官网演示，用户可以提供参考图片以指定的风格渲染原始视频，或者使用文字指令修改视频中的某些材质，甚至输出3D模型渲染和定制视频。

在AI生成3D短视频方面，国内深氧科技近期完成数千万元天使轮融资，并引入GPT3.5、Transformer、Diffusion Model等AI技术红利，其O3.xyz引擎V1.0版本支持一站式生成3D短视频内容，拥有百万粉丝的博主“特效卡卡西”等创作者已加入内测。

图片来源O3.xyz

可见，跨模态人工智能生成视频正在加速发展，“用嘴做视频”或将在短视频、影视、设计、游戏、电商等诸多行业得到应用。未来。

回到开头提到的“D-ID”，数字人/虚拟替身的生成也是图像生成视频的一种。目前，此类工具在企业培训和营销方面的应用案例很多。

2020年推出的AI视频创作产品“Synthesia”显示，已被数千家企业使用。用户可以从现有的演员库中选择或上传自己的视频来创建AI图像，然后输入脚本让AI配音并拼接素材。视频已输出。

图片来源Synthesia

Synthesia通过训练神经网络实现逼真的合成效果。与传统视频制作相比，减少了实景录制等环节，可以节省制作成本和周期，并且可以一键生成多语言视频，方便本地化服务。因此，企业使用它来批量制作用于员工培训、产品入门演示、营销等的视频。

D-ID 较早开始开发图像处理技术，并因与 MyHeritage 合作推出“Deep Nostalgia”计划而闻名。借助人工智能工具，用户可以将已故亲人的静态照片变成栩栩如生的动态视频。

最近，借助ChatGPT的热潮，各种AI工具结合制作的视频被更多人看到。 D-ID的经验门槛较低。可以生成带有人物评论的视频。

D-ID自动为角色添加一系列面部动作，模拟一些轻微的头部动作，但有时表情有点怪异，过于真实的照片可能会让人产生“恐怖谷”反应。

同时，用户不能上传政治、性、犯罪、名人或歧视性图像，D-ID会提示违规风险。这意味着人工智能生成视频技术与其他生成内容一样，将面临版权和道德等问题。

03 我们该如何应对下一波AIGC

去年，Stability AI 首席技术官 Tom Mason 判断，继文本生成图像之后，下一波浪潮必定是视频、音频和 3D。

当AI可以写文章、画画、制作视频，并尝试接管大部分创意任务时，人类下一步应该做什么？

这里我只谈一下我的想法。首先，技术人员可以不断开发和完善AI模型。在TikTok官网上，已经列出了AIGC方向的机器学习工程师的招聘需求。

图片来源 TikTok 职业

TikTok 表示，“AIGC 最近的突破让我们相信 AIGC 技术可以用于商业目的，尤其是创意制作。想想人工智能生成/辅助的广告创意脚本，甚至人工智能生成的商业图像和视频，这将永远改变创意制作行业。”

目前的AI视频模型无法像AI图形那样快速生成高质量的作品，存在视频模糊、动作不自然、细节缺乏等问题。不过，随着AIGC技术在国内的发展，相关场景的应用生态可能还有很大的想象空间，包括上面提到的一些AI科技公司，已经开始提供付费服务，以提高个人和个人的内容生产水平。企业。效率。

对于内容创作者来说，与其担心自己是否会被AI取代，不如学会认识和使用AI工具，让AI取代重复性、琐碎的工作，把更多的时间花在自己的核心优势上，产出更高质量的内容。

确实，随着AI的加入，内容竞争将会更加激烈。有创作者表示，D-ID出现后卡通形象，“所有纯粹以阅读稿件、新闻播报方式传输的视频都会受到很大冲击”。

从用户的角度来说，我觉得只要是优质的内容，那如果是AI批量生成呢？我们担心的其实是低质量内容的泛滥。

平台和用户都需要防止人工智能被滥用，例如产生虚假、仇恨、歧视或有害内容，甚至引发欺诈等犯罪行为。谷歌曾提到，出于安全和道德原因，Imagen Video的内部试验中应用了输入文本提示过滤和输出视频内容过滤，但仍然存在重要的相关风险，两种视频生成模型暂时不会发布。代码或演示。

总之，一方面，AI技术大大降低了从文字到视频的内容创作门槛。另一方面，AIGC也推动了内容产业的创新。目前至少可以实现一定程度的降本增效，但在发展初期还没有建立新的模式。规则和秩序，行业到底如何改变，还要看人的作用。

本文固定链接: https://wen.nuanque.com/midjourney/6957.html
转载请注明: nuanquewen 2023年07月04日于吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计发表
文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生，如发现内容涉嫌抄袭侵权，请联系在线客服举报，一经查实，本站将立刻删除。本站转载之内容为资源共享、学习交流之目的，请勿使用于商业用途。

最后编辑：2023-07-04

作者：nuanquewen

吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计

站内专栏站点

您可能还会对这些文章感兴趣！