死死团
精华
|
战斗力 鹅
|
帖子
注册时间 2023-4-5
|
Copy Is All You Need
复制粘贴式语言建模方法
github项目仓库:https://github.com/gmftbyGMFTBY/Copyisallyouneed
多数的文本生成模型通过从固定词表中按顺序选择单词来组成输出,在本文中,将文本生成过程表述为从现有文本集合中逐步复制文本段的过程(例如单词或短语)
通过计算有意义的文本片段的上下文表示,并使用高效的向量搜索工具包对它们进行索引,文本生成的任务被分解为一系列复制和粘贴操作:在每个时间步骤,从文本集合中寻找合适的文本范围,而不是从独立的词表中进行选择
根据自动和人工评估,标准语言建模基准(WikiText-103)上的实验表明,本文方法实现了更好的生成质量,此外,由于解码步骤的减少,其推理效率可与Token级自回归模型相媲美
同时还表明,本方法可以通过简单地切换到特定于对应领域的文本集合而无需额外的训练来实现有效的对应域自适应
最后观察到,本文方法通过简单地扩展到更大的文本集合而获得了额外的性能提升,同样无需进一步训练
COG流程概述图,给定前缀文本(The Dune film wasreleased),COG从文档中检索3个短语(不同颜色),并从固定词汇中生成3个标记(Before、that和逗号,)组成整个生成答案
将COG方法与以下三个基线进行了比较:
1.Transformer(目前神经语言模型事实上最好的模型),具体来说,在实验中对预训练的GPT2模型进行了微调
2.kNN-LM,一种检索增强生成模型,通过使用k最近邻(kNN)模型线性插值其下一个标记分布来扩展预训练的神经语言模型
3.RETRO,另一种检索增强生成模型,结合了冻结BERT检索器、可微编码器和分块交叉注意机制来预测下一个标记,由于没有可以访问的预先训练的RETRO模型,因此在WikiText-103数据集上从头训练了RETRO
WikiText-103测试集的自动评估,对于每个具有核采样的模型,运行10次并记录平均MAUVE和多样性分数
COG方法在WikiText-103测试集上生成的示例,虚线方块表示内容(红色)是从Token词表复制的,实心方块表示内容(以蓝色突出显示)是从其他文档复制的
人工评估结果与拓展实验:
—— 来自 S1Fun |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|