OpenAUC阅读笔记

OpenAUC: Towards AUC-Oriented Open-Set Recognition

一、研究背景

图像分类是计算机视觉的基础问题之一。传统的图像分类算法基于封闭集假设,即训练集中的类别标签空间和测试集中的类别标签空间是相同的。但是在很多实际应用中,测试样本中难免会出现训练集中不存在的新类别,这就构成了开放集识别的场景。与封闭集识别不同,开放集识别不仅需要对已知类别进行正确分类,还需要检测出未知类别的样本。那么在这个更具挑战性的任务下,如何评估模型的性能就成为一个关键问题。

现有的开放集识别任务中的评估指标主要分为两类:

  • 一是将分类指标扩展到开放集场景,如Open-set F-score;
  • 二是将其视为新颖度检测问题,采用AUC指标。

但是作者通过理论分析指出,这两类指标都存在一定的不一致性,无法很好地反映模型在开放集识别任务上的真实综合性能,因此有必要研究新的评估指标。

二、工作思路

将传统的分类指标扩展到开放集识别任务上是最自然的思路。例如Open-set F-score通过引入未知类别,计算已知类别的真正例(TP)、假正例(FP)、假反例(FN),来综合反映已知类别的精确率和召回率。但是作者指出,这类指标只是通过已知类别的FP和FN来隐式反映未知类别的性能,而未明确考虑未知类别样本的预测结果。因此很容易导致将未知类别样本错误预测到已知类别也可以获得较高的指标值,这与开放集识别的目标不一致。

另一种思路是将开放集识别视为一个检测新类别样本的新颖度检测问题,采用AUC指标。AUC通过计算已知类别作为正样本,未知类别作为负样本时的真正例率和假正例率曲线下的面积,来评估正负样本的排序能力。但是AUC忽略了对已知类别样本的分类性能。将AUC和已知类别分类精度Acc简单结合,也存在不一致性,因为两者对已知类别和未知类别的性能评估是脱节的。

三、OpenAUC

针对现有评估指标的问题,作者提出了一种新的评估指标OpenAUC。其核心思想是同时考虑已知类别样本的分类准确性以及未知类别样本的排名结果,将两者有机结合起来进行综合评估。

具体来说,OpenAUC指标的值为:在一个已知类别样本被正确分类的前提下,该样本相对于一个未知类别样本的开放集打分的排名结果。如果已知类别样本被正确分类,且其开放集打分低于未知类别样本,则这个已知-未知样本对算作正确预测的样本对。OpenAUC指标计算所有这样的已知-未知样本对中,已知类别样本被正确分类并排名于未知样本之前的比例。

由此可以看出,OpenAUC指标同时兼顾了对已知类别的准确预测和对未知类别的有效识别。其计算方式确保只有在已知类别样本被准确预测的前提下,未知类别样本的排名结果才会被考虑进来。这避免了现有指标中只关注已知类别或未知类别其中一方面信息的问题。

作者通过理论分析证明,OpenAUC指标可以避免现有指标中的不一致性问题,更能反映模型在整个开放集识别任务上的真实综合性能。

四、OpenAUC优化

为了能够通过Empirical Risk Minimization来学习OpenAUC指标,作者将其形式化为一个可优化的代价函数。具体来说,对于已知样本,首先采用分类损失来保证其被准确预测到对应类别;然后对于未知样本,添加一个AUC损失来优化其相对于已知样本的排名结果。

由于通常只有已知类别的训练样本,作者采用了manifold mixup的方法生成未知类别样本,以供训练时计算AUC损失。最后的优化目标函数为分类损失与AUC损失的组合,分步骤先优化已知类别预测,再优化未知类别检测。

五、实验结果

作者在多个开放集识别基准数据集上进行了实验,与多个state-of-the-art方法进行比较。结果显示,所提出的OpenAUC指标和优化方法可以帮助模型获得最优的OpenAUC指标值,同时也取得非常竞争的已知类别分类精度。这验证了OpenAUC指标和优化算法的有效性。

另外,作者还通过实验展示了采用OpenAUC指标可以避免现有指标中识别已知类别和未知类别脱节的问题。总体来说,本文对开放集识别任务的评估指标进行了有益的扩展和完善。

六、总结

  • 我们对OSR的现有指标进行了详细分析。理论结果表明,现有的指标,包括基于分类的指标和AUC,由于其自身的局限性,本质上与OSR的目标不一致。
  • 提出了一种新的度量,称为OpenAUC。OpenAUC克服了现有度量标准的限制,从而摆脱了不一致的特性。
  • 提出了一种端到端学习方法来优化OpenAUC,在多个基准数据集上的实证结果验证了该方法的有效性。

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!