宁波网站推广哪家公司好,wordpress无编辑栏,怎么在网上卖东西到国外,健身房页面设计大纲文章目录 前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献 二.相关工作强化学习方法两阶段重新排名方法具有序列级损失的多任务学习 三.本文方法3.1 相似度函数3.2 校准损失3.3正则化损失3.4 候选解码方法 四 实验效果4.1数据集4.2 对比模型4.3实施细节4.… 文章目录 前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献 二.相关工作强化学习方法两阶段重新排名方法具有序列级损失的多任务学习 三.本文方法3.1 相似度函数3.2 校准损失3.3正则化损失3.4 候选解码方法 四 实验效果4.1数据集4.2 对比模型4.3实施细节4.4评估指标4.5 实验结果校准序列似然的好处校准模型的缩放属性最终结果 五 总结 前言 CALIBRATING SEQUENCE LIKELIHOOD IMPROVES CONDITIONAL LANGUAGE GENERATION22090、论文摘要
条件语言模型主要通过最大似然估计MLE进行训练为稀疏观察的目标序列提供概率质量。虽然 MLE 训练的模型为给定上下文的合理序列分配了高概率但模型概率通常不会按质量准确地对生成的序列进行排序。这已在波束搜索解码中凭经验观察到因为大波束尺寸会导致输出质量下降而解码策略则受益于长度归一化和重复阻止等启发式方法。
在这项工作中我们引入了序列似然校准SLiC其中对模型生成序列的似然进行校准以更好地与模型潜在空间中的参考序列对齐。使用 SLiC解码启发式变得不必要并且无论采用何种解码方法解码候选的质量都会显着提高。
此外SLiC 没有显示出模型规模带来的回报递减的迹象并且提供了在有限的训练和推理预算下提高质量的替代方法。
借助 SLiC我们在抽象摘要、问题生成、抽象问答和数据到文本生成等广泛的生成任务上超越或匹配了 SOTA 结果即使是中等大小的模型也是如此。
一、Introduction
1.1目标问题
条件语言生成旨在根据输入上下文生成自然语言文本包括许多有用且困难的任务例如抽象摘要Mani2001Nenkova 和 McKeown2011、生成式问答Bajaj 等人2016、问题生成Zhou et al., 2017和数据到文本Wiseman et al., 2017; Gardent et al., 2017任务。预训练大型 Transformer 编码器-解码器模型并在下游任务上对其进行微调是解决这些任务的常见范例Raffel 等人2020Lewis 等人2019Tay 等人2022Zhang 等人 2019a。 条件语言生成任务是通过学习给定上下文序列 x 的目标序列 y 的概率来建模的。由于直接对所有可能生成的文本序列上的序列概率 P (y|x) 进行建模很困难因此规范的解决方案是自回归分解概率并在所有标记预测步骤中共享参数即 Pθ(y|x) ∏l t 0 Pθ(yt|y0…yt−1, x)其中 l 是序列长度。这些模型通常使用最大似然估计 (MLE) 对观察到的目标序列进行训练。学习目标因此变为 L ΣN i −log(Pθ(yi|xi)) ΣN i Σl t0 −log(Pθ(yt i |y0 i …yt−1 i , xi))其中 N 是训练实例的数量。它也被称为下一个令牌预测损失因为它在数学上是等效的。 在 MLE 训练的理想设置中每个上下文都会观察到大量目标序列并且输出序列的相对频率可以校准分配的模型概率。然而实际上大多数语言生成训练数据集只有一个目标序列鉴于上下文。虽然随后的 MLE 训练模型学习为合理的序列分配相对较高的概率但它们缺乏比较这些序列的直接监督并且仅依赖于模型的泛化能力。我们将这种现象称为模型的序列似然未校准。先前的工作Liu 和 Liu2021Liu 等人2022表明MLE 训练模型的序列概率与其质量之间的相关性可能较低。刘等人。 2022将此类似地归因于确定性单点目标分布问题。暴露偏差Ranzato et al., 2016进一步加剧了问题因为当模型的解码序列偏离暴露的训练数据分布时序列似然估计的噪声更大。 在训练和解码过程中人们提出了许多有效的启发式方法来解决未校准序列似然的问题。标签平滑Szegedy et al., 2016可防止网络对观察到的目标过于自信。这在语言生成中尤其必要因为黄金目标仅代表多种可能性中的一种。据观察解码候选数量的增加超过某一点会导致波束搜索解码Yang 等人2018Koehn 和 Knowles2017和采样Adiwardana 等人2020的质量变差。解码候选的最佳数量通常是通过在验证集上解码模型并测量其性能来凭经验确定的。使用长度归一化对于波束搜索解码Wu et al., 2016和采样Adiwardana et al., 2020也至关重要因为模型往往会低估较长句子的序列可能性。当模型高估重复序列的概率时重复是另一种常见的故障模式Holtzman 等人2019。 Trigram 阻断Paulus 等人2018和核采样Holtzman 等人2020已被用来中断重复序列。这些技术很普遍并且通常是现代 Transformer 库中的默认技术Wolf 等人2020Lewis 等人2019Raffel 等人2020Zhang 等人2019a。 由于 MLE 训练中缺乏观察到的目标序列是根本问题因此已经提出了涉及使用多个候选序列进行学习的解决方案来直接解决该问题。它们可以大致分为三类1具有序列级奖励的强化学习Paulus et al., 2018Ziegler et al., 2019Stiennon et al., 2020 (2) 生成候选者并对其重新排名的两阶段系统Liu 和 Liu2021Ravaut 等人2022bLiu 等人2022 3具有序列级损失的多任务学习Edunov et al., 2018Liu et al., 2022。请参阅相关著作第 4 节以获得更全面的讨论。
1.2相关的尝试
1.3本文贡献
在本文中我们建议首先在其自己的训练数据集上从微调模型中解码候选者然后继续使用新目标训练模型。新目标旨在根据候选序列与模型潜在空间中目标序列的相似性来对齐候选序列的可能性。我们将此过程称为序列似然校准 (SLiC)。 我们的方法与 Liu 等人的具有序列级损失的多任务学习相关。 2022。 然而我们提出了一种简单而有效的方法可以消除解码启发式方法并且不会冒直接优化用于报告文本生成质量的相同指标的风险。 与强化学习不同它是一次性离线过程避免了昂贵的在线解码过程。 此外与两阶段重新排名系统相比它不需要单独的重新排名模型从而增加额外的复杂性和计算量。如图 1 所示我们的校准阶段自然地扩展了当前预训练和微调的范式并且我们表明在不同模型大小上校准模型比仅微调模型有很大的改进。
总之我们的贡献如下 提出了序列似然校准 (SLiC) 阶段该阶段能够持续提高模型质量超越或匹配抽象摘要、生成问答、问题生成和数据到文本生成任务的最先进结果。 • 提出了模型解码和模型潜在空间中测量的目标之间的新颖校准相似性度量而不是诉诸外部度量或人类反馈。 • 证明SLiC 无需流行的解码启发式方法例如校准模型的波束尺寸优化、长度归一化和重复预防。 • 证明即使模型参数数量增加SLiC 对模型性能也具有持续的显着优势。在相同的推理预算下较小的校准模型可能通过解码更多候选者而胜过较大的模型。
二.相关工作
强化学习方法
保卢斯等人。 (2018)在RL微调阶段直接优化评价指标ROUGE。一个问题是 ROUGE 指标不强制流畅性。作者发现摘要并不总是可读并提出使用混合训练目标效果更好。齐格勒等人。 2019斯蒂农等人。 2020收集人类对微调模型解码的判断以训练根据人类偏好对候选者进行排名的奖励模型。然后使用 PPO 针对奖励模型对监督策略进行微调。作者发现与直接优化 ROUGE 相比优化奖励模型会产生更好的质量摘要。
两阶段重新排名方法
SimCLSLiu and Liu2021提出将文本生成公式化为对比学习辅助的无参考质量估计问题。第一阶段通过不同的波束搜索对候选者进行解码并在第二阶段使用基于 RoBERTa 的模型对它们进行排名。 SummaReRankerRavaut 等人2022a观察到与在相同数据上训练两个模型相比在微调数据的两个不重叠的一半上训练生成和重新排序模型时性能有所提高。李等人。 (2021) 训练一个用于神经机器翻译的判别性重排序器该重排序器可以预测观察到的 BLEU 分数在 n 最佳列表中的分布。 BRIOLiu et al., 2022包括一个使用序列到序列生成模型的两阶段重新排序系统。结果表明序列到序列重排序器在提供排序分数方面比仅编码器模型具有更好的性能。
具有序列级损失的多任务学习
埃杜诺夫等人。 2018调查了一系列用于结构化预测的经典目标函数并将其应用于序列到序列模型。他们的实验表明将序列级目标与标记级目标相结合可以提高翻译和摘要数据集的性能。 Sun 和 Li2021将对比学习目标与负对数似然相结合以降低模型生成“银”摘要的可能性同时增加“金”参考的可能性。 BRIOLiu et al., 2022证明与两阶段重排序系统相比通过对比重排序和标记级生成对候选序列进行多任务学习具有更好的性能。排名顺序是通过使用外部指标ROUGE、BERTScore与目标的相似性来确定的。经过 ROUGE 训练进行排名的模型在 BERTScore 上的测量结果也表现良好反之亦然。卢卡西克等人。 (2020) 将标签平滑从分类任务扩展到用于序列到序列学习的语义标签平滑。他们的技术增加了序列级损失平滑了在语义上和 n-gram 级别上与目标序列相似的格式良好的相关序列。
三.本文方法
我们通过引入第三个校准阶段 SLiC 来扩展预训练和微调的常见范例。如算法 1 所示我们首先在微调数据集 {x, ̄ y}n 上从微调模型 Pθft (y|x) 解码 m 个候选 {ˆ y}m然后通过继续校准微调模型对我们提出的损失进行训练 L(θ) Σ b Lcal(θ, s; x, ̄ y, {ˆ y}m) λLreg(θ, θft; x, ̄ y) 其中 Lcal 和 Lreg 是校准和正则化损失。 s s(ˆ y, ̄ y; x) 衡量候选者 ˆ y 和目标 ̄ y 之间的相似度以上下文 x 为条件。我们在下面的部分中讨论 s、Lcal、Lreg 的选择和解码策略 ˆ y ∼ Pθ(y|x)。
3.1 相似度函数
对于给定的输出序列 y我们将解码器输出隐藏状态 eL×D emb(y, x) 作为其表示其中 L 是标记数D 是隐藏状态维度。在候选 ^ y 的表示 ^ e 和目标 ̄ y 的表示 ̄ e 之间我们计算它们在 n 个标记跨度上的余弦相似度并使用基于 F 测量的函数 Fn 在序列上聚合它们。 Fn、Pn、Rn 的表示法与 BERTScore 中的相同Zhang et al., 2019b。 与 BERTScore 相比我们使用模型的解码器输出表示而不是 BERT 编码器表示并且还考虑在 n 1,2,4,8 个标记而不是 1 的范围内进行匹配。与使用外部指标例如 ROUGE、BERTScore相比这个评分函数有几个优点1它增加的计算成本非常少不需要额外的模型或图外计算 2它与我们评估发电系统所用的指标不同并降低了直接优化这些不完美指标的风险Paulus et al., 2018Stiennon et al., 2020 (3) 它以上下文 s(ˆ y, ̄ y; x) 为条件而不是 s(ˆ y, ̄ y) 形式的度量。
3.2 校准损失
校准损失 Lcal(θ, s; x, ̄ y, {ˆ y}m) 旨在根据模型与目标序列 s(ˆ y, ̄ yx)。给定上下文 x、目标 ̄ y 和一组候选 {ˆ y}m我们考虑以下 4 种损失类型。排名损失优化从 {ˆ y}m 均匀采样的正负候选对 ˆ y, ˆ y− 的排序顺序其中 s(ˆ y, ̄ y; x) s(ˆ y−, ̄ y; x)。保证金损失最大化正负候选对的序列概率差距。列表式排名损失优化候选列表的排名顺序其中 i, j 是 ˆ yi, ˆ yj 在按 s(ˆ y, ̄ y; x) 排序的集合 {ˆ y}m 中的位置。它是 BRIO 中使用的对比损失Liu et al., 2022。预期奖励损失或预期最小风险最大化候选列表的预期相似性Edunov et al., 2018。 所有损失的 β 值都是根据第 3.3 节中每种损失类型的经验选择的。
3.3正则化损失
我们考虑两种替代类型的正则化损失 Lreg以防止模型显着偏离其微调 MLE 目标交叉熵是Liu 等人2022中使用的标准微调 MLE 目标。 KL 散度直接最小化观察到的目标序列上每个标记处的校准模型和微调模型之间的概率分布距离。正则化损失都是令牌级别的。 3.4 候选解码方法
我们考虑以下 SLiC 解码方法 Beam Search 是标准的最佳优先算法用于解决序列到序列模型中棘手的最大似然优化问题Tillmann 和 Ney2003 年Li 等人2016 年Wiseman 等人2016 年。 2017陈等人2018。 多样化波束搜索DBSVijayakumar 等人2016通过将波束搜索预算划分为组并强制波束组之间的相异性来生成不同输出的列表。它在质量和多样性之间取得了平衡通常是两阶段重排序系统的最佳策略Liu and Liu2021Ravaut et al.2022bLiu et al.2022。 Nucleus SamplingHoltzman et al., 2020仅在解码的每个步骤中对累积概率 p 内的高概率令牌进行采样。它产生多样化的候选者同时防止抽样质量非常低的候选者。
四 实验效果
4.1数据集
对于抽象摘要任务我们选择 CNN/DailyMail (Hermann et al., 2015; See et al., 2017)、XSUM (Narayan et al., 2018)、RedditTIFU-long (Kim et al., 2019) 和 SAMSum ( Gliwa 等人2019因为它们在领域、风格、抽象性和摘要长度方面具有多样性。对于问答相关任务我们选择给定上下文的生成式问答 MSMARCO NLG (Bajaj et al., 2016) 及其问题生成 SQuAD QG 的逆向问题 (Zhou et al., 2017; Du et al., 2017)。对于数据到文本的任务我们选择给定结构化数据 WebNLG-en (Gardent et al., 2017) 和常见概念推理 CommonGen (Lin et al., 2020) 的文本生成。数据集的更多详细信息及其统计数据可以在附录 A 中找到。
4.2 对比模型
4.3实施细节
我们遵循 PEGASUS 预训练Zhang et al., 2019a并将 Transformer 模型大小扩展到 PEGASUSSMALL (50M)、PEGASUSBASE (200M)、PEGASUSLARGE (500M) 和 PEGASUS2B (2B)。1 与原始论文不同我们使用句子96k 词汇量具有字节回退Kudo2018所有模型的预训练批量大小为 4096。型号尺寸请参见附录 B。在所有实验中我们使用学习率 lr 10−4使用 512 的批量大小进行微调使用 64 的批量大小来校准模型。除非另有说明我们使用波束搜索来生成校准候选并评估校准模型。在我们的消融研究第 3.3 小节、效益分析第 3.4 小节和扩展实验第 3.5 小节中我们使用预训练了 500,000 个步骤的模型并在 4 个数据集CNN/DailyMail、XSUM、RedditTIFU-long 和 SAMSum上进行实验。对于消融研究和效益分析我们使用 PEGASUSLARGE。我们报告每个数据集验证分割的 ROUGE 1/2/L (Lin, 2004)2 及其总体得分 Rm定义为跨数据集平均的 ROUGE 1/2/L 的几何平均值Rm 1 4 Σ d 3 √R1R2RL。对于最终结果第 3.6 小节我们将 PEGASUS2B 模型预训练为 250 万步在所有 8 个数据集上对其进行微调使用相同的配方进行校准并报告测试分组的数字除非另有说明。我们对每个数据集使用相应的标准评估脚本。3
4.4评估指标
4.5 实验结果 相似性函数 我们使用模型在解码器输出表示 sθ(ˆ y, ̄ y; x) 处的潜在状态第 2.1 小节来比较我们提出的相似性函数以直接优化评估指标 ROUGE。即使评估指标是 ROUGE 分数它们在所有数据集上的表现也相似。我们还通过用标记嵌入替换解码器表示 emb(y, x) 来测试相似性函数的变体。这种变体的性能较低这表明上下文化和依赖于输入的表示的好处。 校准损失 具有所有损失类型的校准模型比仅微调模型有显着改进。排名损失表现最好其次是利润、列表排名然后是奖励。奖励最大化的优点是无需扫描超参数 β公式 1而排名和边际损失则具有较小的训练内存占用。显示最佳增益的排名损失表明候选的相对排序比它们与目标的相似度的绝对值更重要。 正则化损失 交叉熵和 KL 散度正则化的表现类似。如果移除正则化大约还会保留 85% 的校准增益。
校准候选解码方法 我们根据验证集为校准候选解码方法选择超参数。最佳解码方法取决于数据集但方法之间的差异很小最差方法的增益仅为最佳方法的 90%。集束搜索产生最高的平均质量。这与两阶段重排序系统Liu and Liu, 2021; Ravaut et al., 2022b; Liu et al., 2022中的发现相反两阶段重排序系统更喜欢更多样化的解码策略。 微调模型的检查点选择 我们比较了 ROUGE 选择的检查点和 perplexity 选择的检查点。实验表明从困惑度选择的检查点开始校准可以产生相同或更好的性能并且在 CNN/DailyMail 数据集上差距最大。 **TL;DR**我们推荐一个简单的方法通过验证集困惑度选择微调模型的检查点使用波束搜索解码候选使用排名损失和 KL 散度正则化来校准模型。
校准序列似然的好处
校准模型的质量随着解码候选数量的增加而单调提高4 无论校准解码和评估解码方法如何如图 2 所示。另一方面当解码候选数增加时仅微调模型的质量会下降。解码次数超过最佳值。一旦模型使用任一解码方法进行校准它在评估时都会表现良好。使用波束搜索进行解码可得到更高的分数最多可验证 20 次解码。当校准解码和评估解码方法一致时最终质量略好于不匹配的设置。 CNN/DailyMail、XSUM 和 SAMSum 数据集与波束搜索配合使用效果最佳但 RedditTIFU-long 与核采样配合使用效果更好并且使用大量候选者对其进行解码可能会获得更好的结果。 校准模型不需要长度标准化。如表 2 所示长度归一化通常在波束搜索中实现为 α对于在解码时偏向于较长序列的仅微调模型至关重要。相反长度归一化对校准模型的影响最小。 校准模型的重复次数要少得多。重复率 (rep%) 衡量模型失败的常见模式。它被定义为包含任何类型的连续重复单词 n-gram 的示例的百分比。虽然长度归一化有助于仅微调模型的总体质量但它会导致更高重复的副作用。校准模型无论是否进行长度归一化重复率都要低得多。当我们与黄金参考中的重复率重复可能自然发生进行比较时没有长度归一化的校准模型具有相似或更低的重复率。
校准模型的缩放属性
随着模型规模的扩大缩放特性对于预测技术的未来相关性非常重要Kaplan 等人2020a。在图 3 中我们使用波束搜索比较了不同模型大小和解码候选数量下的生成质量与推理计算。附录 F 描述了估计推理计算 FLOP 的方法。 正如前面第 3.4 节中提到的仅微调模型具有最佳解码波束尺寸而校准模型的性能随着解码波束尺寸的增大而单调增加。即使在贪婪解码的情况下波束大小为 1校准模型的性能也超过了仅微调模型对于某些数据集CNN/DailyMail 和 RedditTIFUlong来说性能大幅提高。它们的间隙随着光束尺寸的增加而变大。校准带来的质量改进幅度在模型大小从 50M 到 2B 的范围内持续存在。随着模型规模的扩大没有明显的回报递减迹象。推理计算可用于解码而不是用于较大的模型。经过训练的校准模型可以通过解码更多候选者来提高其性能通常在开始时更有效尽管回报会减少超过 10 个候选者。在某些情况下SAMSum尤其是 CNN/DailyMail解码更多候选者的较小模型可以在质量和效率上击败较大模型。 TL;DR随着模型尺寸的扩大校准优势仍然存在。在相同的推理计算预算下较小的校准模型可以胜过较大的模型。
最终结果
我们使用第 3.3 小节中确定的简单配方在 8 种语言生成任务上校准微调的 PEGASUS2B 模型并使用波束搜索来评估它们而不需要解码启发式第 3.4 小节。我们针对 SLiC 优化的唯一超参数是学习率 lr附录 H。我们对仅微调模型使用光束尺寸 5对校准模型使用光束尺寸 10。如表 3 所示校准模型在数据集和任务中显示出比仅微调模型的一致改进。总体而言我们的校准模型在所有数据集上都超过或匹配 SOTA 模型。在 XSUM、SAMSum、WebNLG-en 和 CommonGen 上我们校准的 2B 模型比 SOTA 模型小十到一百倍。 TL;DRPEGASUS2B 使用简单的 SLiC 配方在各种语言生成任务上实现了 SOTA 结果同时消除了解码启发式方法。 五 总结
我们建议在条件语言生成的预训练和微调阶段之后添加序列似然校准SLiC的第三阶段。校准过程从微调模型中解码候选序列并继续训练根据它们与模型潜在空间中目标序列的相似性来对齐它们的序列似然。 SLiC 的一个简单而有效的方法是通过困惑度选择微调模型的检查点通过波束搜索解码候选通过秩损失和 KL 散度正则化进行校准。我们能够消除校准模型的所有解码启发式方法。随着模型规模的扩大校准的好处仍然存在。在相同的推理计算预算下较小的校准模型可能优于较大的模型。通过校准 PEGASUS2B 模型我们在 8 个数据集上超越或匹配了最先进的结果涵盖抽象摘要、生成问答、问题生成和数据到文本任务。