卡片召唤师
精华
|
战斗力 鹅
|
帖子
注册时间 2023-4-5
|
本帖最后由 Machinery 于 2023-7-7 02:43 编辑
counterfactual-evaluation
推理还是背诵?通过反事实任务评估探索语言模型的能力和局限性
相关论文:https://arxiv.org/abs/2307.02477
github项目地址(coming soon):https://github.com/ZhaofengWu/counterfactual-evaluation
最近的语言模型在广泛的任务中令人印象深刻的表现,表明它们拥有一定程度的抽象推理能力,这些技能是通用的、可转移的,还是专门针对在预训练期间看到的特定任务的?
为了理清这些影响,本文提出了一个基于“反事实”的任务变体的评估框架,这些任务变体偏离了标准任务的默认假设,在一组11项任务中,观察到反事实变体的非平凡性能,但发现与默认条件相比,性能仍然持续大幅下降
这表明,虽然当前的语言模型可能在一定程度上拥有抽象的任务解决技能,但他们通常也依赖狭窄的、不可转移的任务解决方式
这些结果激发了对语言模型性能的更仔细的解释,从而为区分这些行为的不同方面做出努力
GPT-4在各种任务(蓝色)和对应的反事实情况下(橙色)的默认版本上的性能,使用了零样本思维链提示,可以看到GPT-4与默认任务实例相比,在反事实变体任务上始终表现不佳
评估了GPT-4(gpt-4-0314,OpenAI,2023)、GPT-3.5(gpt-3.5-turbo-0301)、Claude(claude-v1.3,Anthropic,2023)和PaLM-2(text-bison-001,Anil et al.,2023)
由于这些是闭源模型,没有任何有关其大小、架构和保留细节的信息,其中最大的PaLM模型并不能公开访问,只能测试第二大的版本
对于每项任务,都通过在提示中添加或者不添加短语“让我们一步一步思考”来尝试鼓励或者不鼓励模型进行逐步推理,在反事实任务变体上的结果,无论是否有0-shot CoT,对于大多数情况, LM都表现出了高于随机的反事实性能,表明拥有一定程度的目标能力,但是总体来说看到了一个一致的模式,即LM在反事实任务变体上的表现要差得多
还在初步实验中探索了开源模型,但发现它们的指令跟随能力并不令人满意,以至于它们的输出通常无法有意义地解析为预测,因此结果中不包括这些模型型号
—— 来自 S1Fun |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|