卡片召唤师
精华
|
战斗力 鹅
|
帖子
注册时间 2023-4-5
|
CLIPN
用于零样本数据集分布外(Out-of-distribution)检测的CLIPN,让CLIP学会说“no”
github项目主页:https://github.com/xmed-lab/CLIPN
分布外检测(Out-of-distribution detection)是指在分布内(in-distribution)数据集上训练模型以对输入图像是否来自未知类别进行分类,人们投入了大量的精力来设计基于卷积神经网络或Transformer的各种OOD检测方法,然而,由CLIP驱动的零样本OOD检测方法(仅需要类名作为ID)受到的关注较少
本文提出了一种新颖的方法,即让CLIP学会说“不”(CLIPN/CLIP saying "no"),增强了CLIP中说“no”的逻辑,其中的主要动机是让CLIP具备使用肯定语义提示和否定语义提示区分OOD和ID样本的能力
具体来说,设计了一种新颖的可学习的“no”提示和一个“no”文本编码器来捕获图像中的否定语义,并引入了两个损失函数:图像-文本二元对立损失(image-text binary-opposite loss)和文本语义-对立损失(text semantic-opposite loss),用它们来教CLIPN将图像与“no”提示相关联,从而使其能够识别未知样本
此外,提出了两种无阈值推理算法(threshold-free inference algorithms),通过利用“no”提示和文本编码器的否定语义来执行OOD检测
在9个基准数据集(3个ID数据集和6个OOD数据集)上的ODD检测任务的实验结果表明,基于ViT-B-16的CLIPN在性能方面优于7个常用算法
简单对比图示,对比了标准的OOD检测算法和所提案的CLIPN之间的特征空间,CLIPN方法涉及“no”逻辑,它提供了一个新的特征空间(黄色区域)来直接识别OOD样本
一个简单演示插图,用于确定原始CLIP缺乏“no”逻辑
CLIPN的推理工作流程,它由三个网络组成:图像编码器、文本编码器和带有可学习“不”提示ρ的“no”文本编码器,对于推理阶段,提出竞争获胜(competing-to-win)和同意不同(agreeing-to-differ)的方式来让两个文本编码器共同确定结果,其中ID类是牛、猫、鱼,OOD类别是狗
匹配x和t的图示,绿色和粉色框分别表示标准文本t和“无”文本tno,m(xi,t no j)=1表示它们匹配但不相关(即“no”文本不是错误的描述,但在语义上不相关),m(xi,t no j)=0表示它们是反向匹配的(即“no”文本与图像具有相反的语义)
相关评估结果与消融实验:
—— 来自 S1Fun |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|