DeepCluster阅读笔记

Deep Clustering for Unsupervised Learning of Visual Features

一、研究背景

计算机视觉领域中,图像的特征表示学习一直是一个关键问题。通过学习对图像特征的有效表示,可以帮助各种下游的视觉任务取得更好的效果。当前主流的特征学习方法大多依赖于大规模标注数据集的监督信息进行预训练,这样学习到的特征具有很强的区分能力。但是构建大规模标注数据集需要大量人力成本。为降低标注数据集的依赖,研究图像的无监督特征学习成为一个重要方向。

传统的无监督学习方法中,聚类算法由于其泛化性而得到广泛应用。聚类方法可以适用于任何领域数据,不依赖具体任务,因此具有很好的扩展性。但是以前很少有工作将聚类方法应用到卷积网络的端到端无监督训练中。大多数工作依赖于特定的预训练任务来设计无监督方法,这样的方法往往需要专家对问题域的理解,不够泛化。因此,如何利用聚类方法进行大规模图像数据的卷积网络无监督训练是一个值得探索的问题。

二、研究方法

论文目标是研究如何利用聚类进行卷积网络的无监督预训练。论文提出一种深度聚类方法,可以在大规模数据集上进行卷积网络的无监督特征学习。具体方法是一个迭代优化的过程,每次迭代包含以下两个步骤:

  1. 基于当前网络参数,对输入图像提取特征表达,然后利用标准的聚类算法k-means对这些特征进行聚类,得到图像的类别伪标签。
  2. 利用聚类得到的伪标签作为监督信息,通过判别损失函数更新网络参数,使网络输出的特征对这些伪标签更具区分力。

通过交替迭代上述两个步骤,网络特征表达能力可以逐步得到提升,并逐渐捕捉数据中的高级语义信息。论文中使用的是简单的k-means聚类算法,但也指出该框架可以推广到其他聚类算法。

三、技术细节

论文中的主要技术细节包括:

(一)卷积网络结构

论文中采用了标准的卷积网络结构,如AlexNet和VGG。AlexNet包含5个卷积层和3个全连接层;VGG包含更深的卷积网络结构。使用这些经典网络结构可以充分利用这些模型的优势,并可以和其他方法进行直接对比。

(二)图像数据预处理

对输入图像先进行Sobel滤波,以提高图像的对比度和局部结构信息。Sobel滤波是一种常用的图像处理方法,可以捕捉图像的边缘和轮廓信息。这可以帮助网络更好地获取低层边缘特征,提供更好的模型初始化。

(三)正则化

使用批标准化(Batch Normalization)和dropout等技巧提升模型泛化性。批标准化可以减小内部协变量偏移;dropout可以在训练时随机扰动网络,增强网络的泛化能力。

(四)均衡采样

均匀采样各聚类以平衡不同簇样本出现频率,防止某个簇的样本主导网络训练。由于k-means聚类往往会产生类别不平衡的情况,均衡采样可以缓解这一问题。

(五)损失函数

网络训练采用了交叉熵损失,将聚类产生的类别伪标签作为监督信号。交叉熵损失可以有效优化网络对伪标签的判别能力。

(六)超参数

在ImageNet数据集上训练了500个epochs。具体超参数如类别数k的选择通过在Pascal VOC分类任务上的效果进行确定。

(七)迭代优化策略

每次迭代先进行k-means聚类,再用分类损失训练网络。交替迭代可以使特征表达和类别簇逐步优化。

通过上述关键技术细节设计,论文提出的深度聚类预训练框架可以逐步学习有效的图像特征表达。

四、实验结果与分析

论文的主要实验结果包括:

(一)图像分类任务评估

(附录表格1和4)
在ImageNet图像分类任务上,论文方法达到44%的最优准确率,优于其他无监督方法。
在Pascal VOC分类任务上微调后达到73.7%的准确率,优于当前最好的无监督学习算法67.7%。

(二)目标检测与语义分割任务评估

(表格3)
在Pascal VOC的目标检测和语义分割任务上,在YFCC100M上预训练的DeepCluster虽然比ImageNet上性能差一些,但是都优于当前最先进的效果。例如在分类上达到+4.3%,在语义分割上达到+4.5%。

(三)迁移学习评估

论文还测试了模型在其他数据集上的迁移学习能力。例如在Place分类任务上,从conv3到conv5层都优于其他方法,显示了模型的迁移特征学习能力。

(四)不同模型结构比较

(表格4)
比较了使用VGG而不是AlexNet作为模型结构的效果提升,在Pascal VOC检测任务上提高了约10%。

(五)不同训练数据的鲁棒性

使用Flickr而不是ImageNet作为训练数据后,模型性能仍高于其他最优的方法,验证了模型的鲁棒性。

(六)特征可解释性分析

通过对特征聚类分析等,展示了模型能够逐步学习语义特征,深层网络编码更高级的视觉模式。通过丰富的实验结果和分析,论文全面验证了所提出方法的有效性,各方面性能均超过了当前最优的无监督学习算法。

五、总结

本文的主要贡献包括:

  • 提出一种新的无监督方法,用于convnets的端到端学习,该方法适用于任何标准聚类算法,如k-means,并且需要最小的额外步骤。
  • 在无监督学习中使用的许多标准迁移任务上具有最先进的表现。
  • 在未固化的图像分布上进行训练时,性能优于先前的技术水平。
  • 讨论了当前无监督特征学习的评估协议。

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!