首页 > 卡通形象 > 文言文生成器在线生成-AIGC浪潮下,文本生成发展如何?
2023
07-03

文言文生成器在线生成-AIGC浪潮下,文本生成发展如何?

1月12日,兰州科技创始人兼CEO、中国计算机学会CCF副主席、创新工场首席科学家周明在心系AIGC技术应用论坛上发表《文本生成研究进展》主题演讲机器人工智能技术年会。

以下为演讲详细内容,机心在不改变原意的情况下进行了编辑整理。

今天主要介绍文本生成,特别是可控文本生成目前的重要研究进展,包括文本生成的基本方法和应用、文本生成中可控方法的研究、文本生成中如何融合知识和常识、长文本生成文本生成中的方法和解码方法。 接下来我会介绍一下兰州科技在文本生成方面的最新项目。

首先介绍一下文本生成的任务和主流框架。 文本生成的任务定义是输入结构化数据、图片或文本来生成新的文本。 例如,输入结构化数据、输入图片或输入几个关键字来生成文本。 目前主流的生成模型都是基于Transformer架构的encoder-decoder框架,如下图所示。

Transformer是Google在2017年提出的架构系统,它可以利用多头注意力模型来扩展不同的信息提取能力,并利用多层神经网络架构来实现更准确的编码和解码过程。

可控文本生成是指我们希望生成的文本不是随机生成的,而是可以添加一些元素,比如情感元素、关键词元素、主题元素和事实元素,如下图所示。

文本生成的预训练模型有类似GPT的自回归解码器模型,比如最新的ChatGPT,其主要模型架构是GPT-3.5的InstructGPT。 当然,还有一些其他类型的模型,比如BART是自动编码器-解码器模型,T5是多任务编码器-解码器模型。

文本生成面临的问题有很多,我这里总结了4点:

常识错误;

内容逻辑错误;

内容分歧;

重复声明。

解决当前文本生成问题的关键技术有:一是如何提高文本生成的可控性; 二是如何提高事实的正确性; 三是如何提高文本生成的一致性和连贯性。 第四是如何克服重复,如何增加多样性等等。 让我快速一一介绍一下。

首先介绍一下文本生成中的可控方法。 目前有以下几种控制方式:

首先是调整解码策略,使生成的结果尽可能包含目标的内容文言文生成器在线生成,即我们指定的主题关键词;

二是调整训练目标函数,构建针对具体任务的可控训练目标函数;

第三是通过输入控制元素调整模型输入以影响生成的结果。

下面我将这些方法一一介绍。

第一个是基于加权解码的可控文本生成。 当我们想要生成一个肯定句时,我们希望下一个生成的单词接近肯定,所以我们需要添加一个控制器。 原始模型是 GPT 模型,根据之前的单词预测下一个单词。 添加控制器意味着如果下面这个词是正的,我们更倾向于选择它,所以我们添加这样一个控制器来控制解码过程。 其中,控制器中的参数λ是固定的。

有时我们需要根据上下文信息来增加或减少某些词的输出概率,并进行动态调整,因此我们可以添加动态解码权重。

可控文本生成也可以使用提示。 我们已经有了一个预训练的模型,可以通过使用一些提示词来生成可控的结果。 例如,如果我们想生成一个带有积极情绪的句子,我们可以输入句子“这首歌充满了情感”,输出的结果可能会倾向于在前面。 但这种方法需要针对不同场景手动查找对应的提示词。 这是一种非常耗费劳动力的方法。

另一种方法是,我们为可控元素生成一个连续的向量(前缀)而不是特定的提示,并将其与传统经典的预训练模型(如GPT)相结合,以反映某些可控元素。

一种特别简单的方法是,我每次生成情感或元素时都会构建一个网络,并每次都从头开始训练网络。 另一种改进的方法是保持基本网络不变,但针对特定的生成目标每次调整提示。 这方面已经有了一些具体的进展,比如基于对比学习的可控文本生成方法:为了生成正元素,在对正元素做模型的时候,尽量让生成的结果尽可能接近正元素,离负面还很远。 这是为了将对比学习的机制引入到模型训练中。

还要特别注意一种称为可持续学习的方法。 通常在训练文本生成模型时,每次添加特征时,都可以重新训练或调整网络。 我们考虑在添加新元素时是否可以重用现有网络。 这里的一种研究方法是在层之间添加自适应组合模块来进行轻量级微调并提高训练效率。

当我们添加一些自适应组合模块时,我们只需要调整需要调整的模块即可。 并且在添加新任务时,最大限度地复用一些现有模块,以提高训练效率。 这种具体的学习方法是,当面对有新元素的文本生成任务时,我们通过计算方法选择网络之间已有的自适应模块,选择最接近训练目标的模块,使得每一层到最后一层形成一个选择小路。 如果现有的自适应模块没有特别合适,则添加新的自适应模块。 然后利用大规模的微调(fine-tune)数据来调整整个网络,就可以得到一个新特征的文本生成网络。

下面我解释如何将常识和知识融入文本生成中。 在现实世界中,无论是不同的场景、不同的领域,都有自己特定的知识体系,包括常识性知识和事实性知识。 我们希望将这些常识和知识融入到文本生成中。 一般的方法是根据输入和文本生成的关键词或元素触发相应的知识库条目,并将其集成到生成模块中,以产生更能体现知识和常识的输出。

另一种方法是隐式地整合常识和知识,即我们将常识结构的三元组转换为常识的自然语言描述形式,并将这些自然语言描述形式添加到训练数据中继续训练,GPT就是文本一代模型。

我们还可以明确地整合常识和知识。 具体过程如下:首先,根据上述预测未来关键词,从常识和知识库中检索出相应的常识和知识项,并将搜索结果添加到原来的上面,相应地得到新的输出。

另一种方法是根据输入得到结果,动态生成一些参考知识项,并将这些知识项整合到原始输入中得到输出。 这个任务就变成了如何根据输入的句子触发或生成相应的知识项。 假设我们有一个大规模的对话问答和一个知识库。 首先,我们根据问答找到匹配的知识项并获得训练文本。 根据训练文本,输入一句话即可触发或生成一些新的知识项。 我们选择概率最大的加入到生成过程中。

接下来介绍一下长文本生成的方法。 由于建模能力的问题,很长的文本无法产生好的结果。 一种简单的方法是两阶段生成方法。

首先,我们进行规划阶段以生成一些关键字来代表故事情节。 将输入和故事情节添加到文本生成模块作为输入以生成更长的句子。 这样的过程可以迭代地分层,每次生成更多的故事情节,直到生成足够的故事情节,然后去得到文本生成结果。

另一种方法是基于隐变量的长文本生成方法。 该方法的思想是:自然文本可以分为多个连续的语义片段,每个片段都围绕一个主要主题展开; 提出了片段级词袋重构目标,使得离散潜在变量可以对每个语义片段中的主题信息进行建模; 使用主题感知的潜变量序列来指导文本生成,使得生成的内容与输入更加相关,并且语义片段之间存在语义关联。

我们还可以基于动态规划进行长文本生成。 目前的两阶段长文本生成中,规划和生成是分离的,存在误差累积的问题。 基于动态规划的方法是将规划和生成结合在一个模型中,给定文本生成的输入卡通人物,动态生成潜在变量(SN),然后生成组成下一个句子的单词序列,并在同时生成代表下一句隐变量的序列,然后继续生成。

上图右侧是具体的流程图。 给定输入,编码器的输出用作解码器的输入。 解码器首先输出代表句子的隐藏变量SN_1,然后隐藏变量生成单词序列的Bag-of-words。 学习到信息,然后根据生成的前面的文本和SN_1,重新生成下一句的隐变量,继续输出。

这相当于先生成一个句子结构,然后根据该句子结构生成具体的单词序列。 这可以很好地控制整个句子结构。

也可以通过使用记忆网络的长文本生成方法,在每一层添加一个记忆网络来完成。 输出时,记忆网络与当前编码器的结果一起确定输出结果。 这里就不一一介绍记忆网络的训练公式了。

下面我介绍一下文本生成中解码方法的研究。 文本生成一般依赖于编码器和解码器,解码器逐字解码。

神经文本生成模型常用的解码策略是贪婪搜索和束搜索。 它们都有一个问题,就是输出时可能会出现重复的单词或片段,这个不好控制。

目前针对这个问题有两种现有的方法,一种称为Top-K k采样,另一种称为Top-p采样,都是从概率最高的n个单词中采样,或者在概率最高的空间中选择,并随机选择输出的结果,然后继续输出,从而提高了多样性。

为了解决重复生成的问题,该方法还引入了一种称为对比训练的方法。 如果输出结果与之前生成的结果非常重复,则会进行一定程度的惩罚,以减少重复生成,生成多样化的文本。

这里我简单总结一下。 刚才我介绍了可控文本生成的关键技术、可控生成融入常识和知识、文本生成和解码方法等等。

未来还有很多方向值得探索。 比如,目前的可控性主要集中在情感关键词上,而章节的可控性、多样性、细粒度的控制还不够。 在整合常识和知识方面,目前的方法是在知识图谱中使用三元组。 这种方法获取知识相对困难,需要有效改进。

长文本生成需要学习主题一致性、事实一致性、文章层次结构和上下文逻辑。 以及如何进一步提高记忆网络的能力? 这些都需要我们进行更多的探索。

最后,从词汇到短语到单句到跨句的多样化解码能力还有一些改进的空间。

我没有提到文本生成的评估体系、评估集、自动评估方法,也没有提到AI伦理,比如如何防止生成可能存在安全隐患甚至有害的文本吉祥物,但这些都非常重要。 , 很重要。 由于时间关系,我在这里不讨论这个问题。

先介绍一下兰州科技的文本生成项目。 我们首先搭建了一个兰州文本生成平台。 基于底层大规模数据(包括通用数据、垂直数据和特定任务数据),我们构建了轻量级神经网络生成模型,这是一种编码器-解码器架构。 我们针对垂直领域做了一些适配文言文生成器在线生成,包括垂直领域的数据获取、弱标签学习数据的构建、细粒度的可控文本生成方法以及章节建模等。基于这样的技术体系,我们可以做一些特定任务或构建垂直领域生成引擎。 目前我们做了营销文案引擎、文章摘要、故事生成、散文小说、文本复述、研究报告生成等各个方面。

我们的技术特点如下图所示,包括多属性可控文本生成、多样化生成、基于知识图谱嵌入的文本生成。

在长文本生成方面,我们也做了很多研究。 轻量级微调使得模型更加高效,并且我们做了很多多任务联合建模来支持多种场景。

我们还做了一些内容和风格的定制,以及自动文本评估,支持多个行业和领域。

下面我简单介绍一下几个典型的项目。

首先是网络文本的生成。 例如,当用户输入如下图所示的一些关键词时,计算机会自动生成非常丰富的句子,供网络文本编写者参考。

有些网络作家有自己的写作模板,如果我们接受他的模板,我们可以生成更丰富的句子。

有些网络写手需要渲染某些实体,比如武士、美女等,这就需要网络写手写一些关键词,然后平台会根据他的思维生成更漂亮的句子,供他们参考。

我们还提供了一个延续函数。 用户可以输入自己写过的句子或段落,计算机会自动继续书写,产生n个可选的输出结果供书写者选择。

我们的平台还可以做文体转换,比如从现代汉语转到文言,或者继续写文言。

我们还使用文本生成技术来生成营销文案。 营销文案过去都是手工撰写,相对昂贵且耗时。 通过使用自动撰写营销文案的方法,您可以快速生成多样化的营销文案。

我们还做了一些可控文本生成的评估,探讨仅输入标题、关键词或添加三元组是否提高了模型生成文本的可控性。

2021年,我们与合作伙伴数说故事合作,打造了一款自动化写作产品contentnote。

使用该产品,用户可以选择协作模板,提供产品名称和一些关键字,然后获得营销文案。

由于我们利用了一些多语言技术,因此还可以生成多种语言的营销文案,包括中文、英语、日语和葡萄牙语等。

基于我们的技术,我们也在致力于智能研究报告生成的应用。 所谓智能研究报告是指用户想要针对某个主题撰写研究报告。 我们的系统会自动从互联网上提取重要资料和用户提交的数据。 根据这些材料,它将生成问答对、事件摘要和舆情分析。 基于这些元素,就可以得到一份研究报告的生成结果——从标题到大纲再到段落生成,并填充上一步生成的元素。

我们还尝试了 ESG 报告生成,根据用户输入生成公司的 ESG 报告。 ESG报告是现在很多企业都需要提交的综合报告,它反映了企业的治理能力。 ESC报告基本上包括几大要素,每个大要素都有一些要点。 基于文本生成技术和信息提取技术,我们可以提取重要信息,最终生成完整的报告。

基于兰州的文本生成技术,我们也做了一些ToC的应用,目前我们做了熊猫小说家微信小程序的应用。 用户可以通过注册并分享给朋友来撰写一系列小说。 如下图所示,用户可以通过设定人物设计、故事梗概、主题以及添加一些关键词来创作一部小说。 与朋友分享后,您可以使用纸牌生成下一本小说。

基于这样的技术,我们还做出了生成专业论文的尝试——用户提交几个关键词,系统可以扩展生成包含用户期望信息的推荐例句。 Langboat Paper Assistant(简称LPA)提供造句和接续功能。

以下视频演示了兰州论文写作助手应用程序的分句和接续功能:

另外,我们还做了一些文本生成,因为我今天演讲的主题是文本生成,所以我简单讲一下我们在文本生成方面的工作。 目前稳定扩散模型是针对英文信息,从英文大数据中学习的。 对于一些中国元素(如雷锋、长城​​、黄山),稳定扩散模型并不能产生很好的效果。 所以我们重新整理了数据,增加了一些中文界面,增加了一些常见的中式风格选择。 用户通过输入一些中文信息就可以得到具有中文色彩的图片。

我今天的演讲主要介绍了文本生成的一些关键技术,也介绍了兰州科技在文本生成领域的一些实践。 由于时间有限,我的演讲就到此结束,请大家多多指正,谢谢大家。

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计