前段时间,很多专家发文指出,大模型不具备自我提升的能力。 即使自我提升之后,答案的质量也会明显下降。
自我完善不起作用的原因是LLM无法准确判断原来的答案是否错误,是否需要改进。
最近,苏黎世联邦理工学院和 Meta AI 提出了一种改进大型模型推理答案的策略——ART:Ask、Refine 和 Trust。 该方法通过提出必要的问题来确定LLM是否需要改进原始输出,并通过比较初步输出和改进的输出进行评估人工智能小模型是什么意思,以确定最终答案。 在GSM8K和StrategyQA这两个多步推理任务中,ART比之前的模型自我改进方法提高了约5个百分点。
论文标题:
LLM 精炼的艺术:询问、精炼和信任
论文链接:
方法方法快速概述
整体框架如下图所示。 作者利用任务相关语料库训练了两个小模型Asker和Truster。 Asker 负责对原问题和输出提出问题,询问原输出是否回答了子问题。 如果答案不正确,将进入下一步以改进原始输出。 第四步,使用Truster判断原始输出和改进后的输出哪个更好,并确定最终结果。
1. 生成初始值
首先,LLM 用于生成问题的初始预测。 在生成初始预测时吉祥物,采用思维链和子问题分解两种方法来增强初始预测答案的正确性。
2. 提问者
如果对每个样本都进行改进,很容易误导模型,将较正确的结果变成错误的结果,最终导致模型性能下降。 因此,作者利用任务特定的知识和预期结果来训练一个小模型作为Asker,判断预测结果是否正确,只对那些Asker不确定的样本进行改进。
那么如何构建训练Asker的数据集呢? 具体来说,LLM 首先用于对训练集的每个样本生成 k 个预测。 并添加数据集的子问题进行质疑,以确认原问题是否得到真正解决,然后根据预测是否正确确认是否需要进行改进。如下图
▲顶部决定改进,底部不需要改进
通过这种方式,Asker 学会首先提出相关问题,然后将它们映射到预测,然后决定初始预测是否回答了所有问题,从而决定是否需要改进。
3. 改进精炼
如果Asker预测结果为“是”(需要改进),则使用LLM根据原始输入和Asker生成的子问题来改进原始输出,如下图所示:
4. 信任信任
此时我们有两个预测结果:初始输出和改进后的输出。 为了决定哪个输出才是最终答案,作者训练了一个Truster模型。
因为改进后的答案大约有80%与最初预测的答案相同。 为了让Truster模型能够学会识别最终正确答案的推理链,而不是特定风格的中间推理链。作者使用了与Asker模型相同的训练数据,输入问题为x,并选择构建和比较具有正确和错误预测的样本。 损失函数如下
其中 r 是“信任者”模型的得分。 然后根据每个样本的得分,选择得分最高的预测作为输出。
实验数据集
该数据集包括两个多步骤推理任务。 GSM8K数据集是小学数学应用题数据集。 训练集包含 7473 个样本,测试集包含 1319 个样本。 每个样本需要 2 到 8 个步骤来求解。 该数据集还包括与给出正确解决方案的步骤相对应的子问题。
StrategyQA 是针对需要推理步骤来解决的开放域问题的问答基准。 StrategyQA包含2290个训练样本,作者使用前20%作为测试集,其余80%作为训练。
实验设置首先分别在 GSM8K 和 StrategyQA 数据集上微调 LLaMA 变体(7B、13B 和 70B)。 然后,收集到的数据用于训练基于微调的 LLaMA 变体的 Asker 模型,以提出相关问题并决定何时进行改进。 最后,对LLaMA 13B模型进行微调,得到Truster模型,并在原始输出和改进输出之间进行选择,最终结果。
每个阶段使用的训练数据大小如下表所示:
▲各阶段训练数据大小对比
实验结果与分析
作者使用LLaMA 70B(包括预训练和聊天版本)、ChatGPT(turbo和instruct)、GPT-4作为基础模型进行比较。 实验结果如下图所示。
初始预测(Initial Prediction)是指LLM产生的初始结果,其中方法(Method)是指推理策略,包括思维链CoT或子问题分解Decomp。 Refinement是指ART中Ask和Refine阶段的结合,子问题代表在改进过程中是否使用子问题。 Trust是指ART中的Trust阶段,其中Self是指自我精炼,Truster是本文训练的模型,Most Late是指选择精炼作为最终结果。
黄色是其他人工作的结果,蓝色代表作者对基线方法的实现,绿色代表本文提出的方法。
不同方法在GSM8K数据集上的准确率及改进策略:
StrategyQA 使用不同模型的准确率比较:
1. LLM缺乏自我提升能力
总体而言,对于 GSM8K 数据集,LLaMA 70B 的性能远低于 ChatGPT Turbo 模型。
此外,在ChatGPT上进行子问题分解(Decomp)时,其性能优于CoT,但在LLaMA 70B中则相反。 由于ChatGPT的训练数据和模型架构不公开,因此很难理解性能差距的原因。
自我完善(图中的self)在某些情况下可以提高性能,但在其他情况下会导致性能下降。 本文将Refinement与Trust模块结合起来,在几乎所有情况下稳步提高初始预测的性能。 。 这证明了 ART 方法不同组成部分的有用性。
2.提问的重要性
GSM8K:
当使用chatgpt作为基线模型时,用LLaMA 7B训练的Asker 7B模型比自我优化策略(Self)提高了2个点以上,而Asker13B则提高了4个点以上(78.62→82.18)。 当使用 LLaMA 70B 作为基线模型时,趋势类似。 拥有Asker模块提高了任务准确性,其性能优于LLaMA 70B的自优化(Self)能力。 对于 GPT-4 模型,结果也遵循类似的趋势,7B (Asker7B) 和 13B (Asker13B) 模型将最初生成的结果提高了约 2 个点 (91.88 → 93.72)。
策略质量保证:
遵循 StrategyQA 上的类似趋势,Asker7B 将 LLaMA 70B 分数提高了 1 分,将 ChatGPT 结果提高了 3 分以上 (70.52 → 73.84)。 Asker 13B 模型的收益甚至更大,LLaMA 70B 的性能提高了 3 个点,ChatGPT 的性能提高了 5 个点,清楚地表明了 Asker 模块对于最佳决策的重要性。 3.不要总是相信改进的结果
如果改进的结果被完全接受,在某些情况下也会造成性能损失。 这时候Truster模块就发挥了作用。 Truster模块对初始预测和改进后的输出进行排序,并决定选择哪一个作为最终结果人工智能小模型是什么意思,相当于给结果加了双重保险。
果然,有了Truster模块的加入,无论是LLaMA 70B还是ChatGPT在GSM8KS上作为基础模型,性能都有大约4-7个百分点的提升。 对于GPT-4来说,增益较小,这可能是因为GPT-4模型的初始性能非常高,达到了93.10,但Truster仍然提高到了94.08。
对于 StrategyQA 来说,Trust 模块没有太大帮助。 这可能是因为在不了解真实情况的情况下很难确定原始输出与改进输出的优点。
4. 微调法学硕士的成本与基于 ART 的成本
由于GSM8K数据集的训练样本可用,因此可以直接对LLaMA 70B模型进行微调。 经过微调的 LLaMA 70B 在 GSM8K 上的准确度为 63.2%。 这与训练 ART 的结果接近,但 ART 训练成本和计算要求要低得多。
如下表所示,Truster使用13B模型训练,而Asker使用7B模型,直接微调70B模型花费的时间更少。 此外,直接微调通常会使模型与训练数据集过度拟合,从而降低其在上下文学习中的通用性,而 ART 框架则避免了这个问题。
▲对比在GSM8K上训练不同尺寸的LLaMA模型所需的成本
结论和局限性
本文提出了一种称为 ART 的改进策略:询问、改进和信任。 使用较小模型训练的 Asker 模型决定是否改进,Trust 决定是否采用改进后的答案。 结果表明,经过精心训练的小模型可以超越大型模型的自我改进能力。
但本文仍有一些局限性:
本文使用来自 GSM8K 和 StrategyQA 数据集的训练数据来训练 Asker。 对于许多任务,训练数据可能不可用。 虽然LLM可以用来生成数据,并且在很多情况下性能接近真实数据。 不过,本文没有测试生成的训练数据是否有效。 此外,对于 StrategyQA表情包设计,作者在改进预测时使用数据集提供的可用事实来支持模型决策。 但在现实世界中,它可能需要借助某些工具或从某些数据库中提取。 作者没有测试过这种方法在ART框架中是否可行。 虽然ART框架有效,但一步步训练Asker和Trust却很麻烦。 作者还测试了一下子完成整个流程的效果,发现性能比分步框架ART要低。
这说明LLM一次性生成整个链路还是有挑战的,期待未来有效的端到端工作的出现~
- 本文固定链接: https://wen.nuanque.com/aigc/20084.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。