FAIR提出用聚類方法結合卷積網絡,實現無監督端到端圖像分類

摘要:聚類是一種在計算機視覺被廣泛應用和研究的無監督學習方法,但幾乎未在大規模數據集上的視覺特征端到端訓練中被采用過。在本文中,我們提出了深度聚類(DeepCluster),這是一種聯合學習神經網絡參數和獲取特征的聚類分配的聚類方法。深度聚類使用標準的聚類算法 k-means 對特征進行迭代分組,隨后使用賦值作為監督來更新網絡的權重。我們將深度聚類應用于 ImageNet 和 YFCC100M 這樣的大型數據集上的卷積神經網絡的無監督訓練。最終模型在所有基準性能中都遠遠優于目前的技術。

實驗

在初步的實驗中,研究團隊研究了深度聚類在訓練過程中的行為。然后,在標準基準上將其方法與之前最先進的模型進行比較之前,并對深度聚類學習的濾波器進行了定性評估。

可視化

24.3

? ? ? ? ? ? ? ? ? ? ? ? ?圖 3:在原始 RGB 輸入 (左) 或 Sobel 濾波 (右) 之后,在無監督的 ImageNet 上訓練的?AlexNet?的第一層濾波器的卷積結果。

24.4

圖 4:濾波器可視化和來自 YFCC100M 的 100 萬個圖像子集中的前 9 個激活圖像,用于在 ImageNet 上使用深度聚類訓練的?AlexNet?的 conv1、conv3 和 conv5 中的目標濾波器。濾波器的可視化是通過學習一個輸入圖像來獲得的,該圖像最大化目標濾波器的響應 [64]。

24.5

圖 5:來自 YFCC100M 的 1000 萬個圖像的隨機子集中的前 9 個激活圖像,用于最后卷積層中的目標濾波器。頂行對應的是對包含物體的圖像敏感的濾波器。底行展示了對風格效果更敏感的濾波器。例如,濾波器 119 和 182 似乎分別被背景模糊和景深效應激活。

激活值的線性分類

24.6

表 1:使用?AlexNet?的卷積層的激活值作為特征的 ImageNet 和 Places 上的線性分類。報告的分類準確率平均超過 10 種作物。其他方法的數字來自 Zhang et al[43]

24.7

表 2:對 Pascal VOC 的分類、檢測和分割的最新無監督特征學習方法的比較。?表明 Krahenbuhl 等人使用數據依賴初始化 [68]。其他方法產生的數字被標記為 a ?

(原文鏈接:https://www.jiqizhixin.com/articles/2018-08-06)

var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?44d5929b98ed1fd093ffc3d47ec712b9"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); document.writeln("");