人臉聚類 - 3 - Learning to Cluster Faces via Confidence and Connectivity Estimation - 1 - 論文學習

本文轉載自查看原文 2021-04-12 18:52 460 深度學習

參考：https://gitee.com/milkboy_lyf/learn-to-cluster/tree/master/vegcn

Learning to Cluster Faces via Confidence and Connectivity Estimation

Abstract

人臉聚類是挖掘未標記人臉數據的重要工具，在人臉標注和人臉檢索等方面有着廣泛的應用。最近的研究表明，有監督的聚類可以顯著提高性能。然而，它們通常涉及啟發式步驟，並需要大量重疊的子圖，嚴重限制了它們的准確性和效率。在本文中，我們提出了一個完全可學習的聚類框架，而不需要大量的重疊子圖。相反，我們將聚類問題轉化為兩個子問題。具體來說，我們設計了兩個圖卷積網絡，分別為GCN-V和GCN-E，分別用來估計頂點的置信度和邊的連通性。利用頂點置信度和邊連通性，我們可以在連通圖上自然地組織更多相關的頂點，並將它們分組到一個集群。在兩個大規模基准上的實驗表明，我們的方法顯著提高了聚類精度，從而提高了在上面訓練的識別模型的性能，且它比現有的監督方法的效率高了一個數量級。

1. Introduction

由於帶注釋的人臉數據集的爆炸式增長[19,11,17]，近年來人臉識別取得了很大的進展[31,27,33,7,40]。隨着這種趨勢，對注釋數據的需求日益增長，導致了過高的注釋成本。為了利用大量未標記的人臉圖像，最近的研究[14,39,35,38]提供了一種有前景的基於聚類的pipelline，並證明了其在改進人臉識別模型方面的有效性。他們首先進行聚類，為未標記的圖像生成“偽標簽”，然后利用它們以監督的方式訓練模型。這些方法成功的關鍵在於一種有效的人臉聚類算法。

現有的人臉聚類方法大致分為兩類，即無監督方法和有監督方法。無監督方法，如K-means[22]和DBSCAN[9]，依賴於特定的假設，缺乏處理真實數據集中復雜的集群結構的能力。為了提高對不同數據的適應性，已經提出了監督聚類方法[35,38]來學習聚類模式。然而，准確性和效率都遠不能令人滿意。特別是，為了使用大規模的人臉數據聚類，現有的監督方法用許多小的子圖來組織數據，導致兩個主要問題。首先，處理子圖涉及基於簡單假設的啟發式步驟。子圖生成[38]和預測聚合[35]都依賴於啟發式過程，從而限制了它們的性能上限。此外，這些方法所需的子圖通常高度重疊，導致過多的冗余計算成本。

因此，我們尋求一種算法，學習更准確和有效的聚類方法。為了獲得更高的准確性，我們希望框架的所有組件都是可學習的，超越啟發式程序的限制。另一方面，為了減少冗余計算，我們打算減少所需的子圖的數量。先前的研究[39,35,38]表明，在一個連通圖上的集群通常具有一些結構模式。我們觀察到這種結構模式主要來源於頂點和邊。直觀地說，就是將每個頂點連接到一個對屬於某個特定類有較高的置信度的鄰居上，這樣可以從連通圖中推導出許多樹。獲得的樹自然地將相互連接的組件作為了集群。基於這一動機，我們設計了一種完全可學習的聚類方法，不需要大量的子圖，從而得到更准確且有效的效果

特別地，我們將聚類問題轉化為兩個子問題。一種是估計一個頂點的置信度，它衡量一個頂點屬於一個特定類的概率。另一種是估計邊的連通性，即兩個頂點屬於同一類的概率。通過頂點置信度和邊連通性，我們以一種自然的方式進行聚類，即每個頂點連接到一個具有更高置信度和最強連通性的頂點。如圖1所示，每個頂點都找到一條連接到具有更高置信度的頂點的邊，最后連接到同一頂點的頂點屬於同一集群。

提出了兩個可學習組件，即置信估計器和連通性估計器，分別用來估計頂點置信和邊的連通性。這兩個組件都基於一個GCN去從數據中學習，表示為GCN-V(頂點置信度)和GCN-E(邊連通性)。具體來說，GCN-V以整個圖為輸入，同時估計所有頂點的置信度。GCN-E以局部候選集構造的圖作為輸入，計算屬於同一類的兩個頂點的可能性。

實驗表明，我們的方法不僅比現有監督方法快了一個數量級，而且在500萬未標記數據的兩個F-score指標下，也優於最先進的方法[38]。主要貢獻在於三個方面:(1)我們提出了一種新的聚類框架，該框架將聚類定義為一種基於可學習組件的置信度和連通性估計。我們的方法比現有的基於學習的方法快一個數量級。(3)該方法在大規模人臉聚類和fashion聚類方面均達到了最先進的性能。這些被發現的集群將人臉識別模型提升到一個可以與有監督的對照方法相媲美的水平。

2. Related Work

Unsupervised Face Clustering. 隨着深度學習的出現，最近的研究主要采用了基於CNN的模型的深度特征，並着重於相似性度量的設計。Otto等人[1]提出了一種approximate rank-order 度量。Lin等人[20]引入minimal covering spheres of neighborhoods作為相似性度量。除了專門針對人臉聚類設計的方法外，經典的聚類算法也可以應用於人臉聚類。基於密度的聚類是最相關的方法。DB-SCAN[9]計算經驗密度，將集群指定為數據空間中的密集區域。OPTICS[3]采用了類似的概念，並解決了數據點的排序問題。

我們的方法與基於密度的聚類方法有共同的直覺，即計算每個樣本[9]的“密度”，關注樣本[3]之間的相對順序。然而，我們的方法與上面所有的無監督方法有本質上的不同:我們框架中的所有組件都是可學習的。這讓我們學會了捕捉人臉集群的內在結構。

Supervised Face Clustering. 最近的研究表明，在人臉聚類中引入監督信息可以帶來相當可觀的性能提高。Zhan等人[39]訓練了MLP分類器來聚合信息，從而發現更穩健的連接。Wang等人[35]利用GCN捕獲圖上下文信息，進一步改進了連接預測。這兩種方法都是通過尋找具有動態閾值的連接組件來獲得聚類。Yang等人[38]設計了一種分區算法來生成多尺度子圖，並提出了一個兩階段監督框架來從中找出所需的集群。

雖然本文提出的方法采用了監督聚類的思想，但它在兩個關鍵方面有所不同:(1)與以往的監督聚類方法[39,35,38]不同，它不依賴啟發式算法進行預處理或后處理。相反，該框架的所有組件都是可學習的，並有可能實現更高的精度。(2)它在設計上更有效率。現有的方法依賴於大量的子圖來精確定位集群。[35]預測了每個頂點周圍的所有連接，其中兩個相鄰的頂點可能有高度重疊的鄰域，因此有冗余的計算成本。[38]產生了用於檢測和分割的多尺度子圖，其數量通常是聚類數量的數倍。相比之下，該方法采用一種有效的subgraph-free策略來估計頂點置信度，並集中在一小部分鄰域上進行連通性預測。

Graph Convolutional Networks. 圖卷積網絡(Graph Convolutional Networks, GCNs)[18]已經成功應用於各種任務中[18,12,32,37,36]。最近的一些工作將GCN擴展到處理大規模圖上。GraphSAGE[12]在每一層中采樣固定數量的鄰居進行聚合。FastGCN[4]通過采樣頂點而不是鄰居來進一步降低計算成本。本文利用圖卷積網絡的強大表達能力，學習大量連通圖上的頂點置信度和局部子圖上的邊連通性。

3. Methodology

在大規模人臉聚類中，監督方法在處理復雜的聚類模式方面表現出了有效性，但其准確性受到一些手工制作組件的限制，其效率受到大量高度重疊子圖的要求限制。因此，如何准確有效地聚類仍然是一個問題。為了應對這一挑戰，我們提出了一種有效的替代方案，其中所有組件都是可學習的。具體來說，我們將聚類定義為估計一個連通圖上頂點的置信度和邊的連通性的過程，然后通過將每個頂點連接到具有較高置信度和連通性的鄰居來將圖划分成集群。

3.1. Framework Overview

給定一個數據集，我們從一個學習好的CNN網絡抽取每張圖的特征，生成特征集，其中。N是圖像的數量，D表示特征的維度。樣本i和樣本j之間的連通性表示為，其是特征和之間的cosine相似度。根據該連通值，我們使用KNN連通圖表示數據集，其中每張圖是屬於的頂點，並與其K個最近鄰相關聯，生成屬於的K條邊。構造的圖可被表示為一個頂點特征矩陣和一個對稱鄰接矩陣，當和不相連時，

為了通過學習頂點和邊的結構模式來進行聚類，我們將聚類分解為兩個子問題。一個是預測頂點的置信度。置信度是用來確定一個頂點是否屬於一個特定的類的。直觀地說，一個高置信度的頂點通常位於屬於同一類的頂點密集分布的地方，而低置信度的頂點可能位於幾個集群的邊界上。另一個是預測邊連通性的子問題。連接度高的邊表明兩個連通樣本往往屬於同一類。利用連通圖中的頂點置信度和邊連通性，可以通過尋找從低置信度頂點到高置信度頂點的有向路徑來實現聚類。這個過程自然地形成了許多相互隔離的樹，從而很容易地將圖划分為集群。我們將此過程稱為基於樹的分區。

該方法的關鍵挑戰仍然是如何估計頂點置信度和邊連通性。如圖2所示，我們的框架由兩個可學習的模塊組成，即置信度估計器(Confidence Estimator)和連通性估計器(Connectivity Estimator)。前者基於GCN-V估計頂點置信度，后者基於GCN-E預測邊連通性。具體來說，GCN-V以整個連通圖為輸入，同時估計所有頂點的置信度。GCN-E以候選集構造的圖作為輸入，計算屬於同一類的兩個頂點的置信度。根據這兩個模塊的輸出，我們進行了基於樹的划分來獲取集群。

3.2. Confidence Estimator

類似於目標檢測[41,8]的anchor-free方法,他們使用的熱圖來表示一個對象出現在圖像的相應區域的可能性,置信度估計旨在為每個頂點估計一個值,從而指示在連通圖的相應區域中是否有一個特定的類。

由於真實世界的數據集通常有很大的類內變化，每幅圖像可能有不同的置信度值，即使它們屬於同一類。對於高置信度的圖像，其相鄰的圖像往往屬於同一類，而低置信度的圖像通常與其他類的圖像相鄰。在此基礎上，我們可以根據鄰域內的有標簽的圖像定義每個頂點的置信度：

其中是的鄰域，是的ground truth標簽，是和之間的連通值。置信度衡量鄰居是否靠近，且是否來自同一個類。從直觀上看，有着密集且純連接的頂點有着較高的置信度，而連接稀疏或位於多個集群之間邊界的頂點有較低的置信度。我們在第4.3.1節研究了一些不同的置信度設計。

Design of Confidence Estimator. 我們假設具有相似置信度的頂點具有相似的結構模式。為了捕獲這些模式，我們學習了一個圖卷積網絡[18]，命名為GCN-V，來估計頂點的置信度。具體來說，給定鄰接矩陣和頂點特征矩陣作為輸入，GCN預測每個頂點的置信度。GCN由層組成，每層的計算公式為:

其中是一個對角degree矩陣。輸入層的特征嵌入即輸入特征矩陣，即第層嵌入。是將嵌入轉換到新空間的可學習矩陣。為非線性激活函數(這里使用的是ReLU)。為了利用輸入的嵌入和鄰域聚合后的嵌入去學習轉換矩陣，定義為兩者的串聯：

這樣的定義已經被證明比簡單地對每個頂點[35]周圍的鄰居嵌入特征進行加權平均更有效。基於第層的輸出嵌入，即，我們使用一個全連接層來預測頂點的置信度：

其中可訓練的回歸量，是可訓練的偏差。預測的置信度就是的對應元素，即。

Training and Inference. 給定有着類標簽的訓練集,我們可以遵循等式(1)為每個頂點獲得ground truth置信度。然后我們使用目標函數去最小化ground truth和預測置信度分數之間的均方差(MSE)來訓練GCN-V，定義如下：

在推理時，我們使用訓練好的GCN-V去預測每個頂點的置信度。獲得的置信度使用在如下兩處：首先，它們被用於下一個模塊，以確定是否需要預測某條邊的連通性，從而顯著降低了計算成本。此外，它們被用於最終的聚類，以提供頂點之間的部分順序。

Complexity Analysis. 主要的計算開銷與圖卷積相關(等式(2))。因為構造的圖是KNN圖，且，連通矩陣是一個高度稀疏矩陣。因此，因此，圖卷積可以有效地實現為稀疏-密集矩陣乘法，復雜度為[18]。稀疏矩陣的邊的數量以NK為界，當頂點數量為時，測試復雜度是線性的。

這個操作可以通過抽樣鄰居或抽樣頂點來擴展到一個非常大的設置[12,4]。根據經驗，一個1層的GCN需要37G CPU Ram，使用16個CPU在一個有5.2M頂點的圖上進行推理需要92秒。

3.3. Connectivity Estimator

對於頂點，置信值大於的鄰居表示它們對自己屬於某個特定類更有信心。為了將分配給一個特定的類，一個直觀的想法是將與來自同一個類的更高置信度的鄰居連接起來。然而，更高置信度的鄰居並不一定屬於同一類。因此，我們引入連通估計器GCN-E，來度量基於局部圖結構的成對關系。

Candidate set. 給定預測頂點置信度，我們首先為每個頂點構造一個候選集:

候選集的目標是挑選連接對屬於一個集群有更高的置信度的鄰居的邊，僅包含有着比置信度更高的置信度的頂點。

Design of Connectivity Estimator. GCN-E和GCN-V有相似的GCN結構。主要區別在於:(1)GCN-E的輸入不是整個圖，而是一個包含中所有頂點的子圖; (2) GCN-E為上的每個頂點輸出一個值，表示它與為同一個類的可能性有多大。

具體來說,子圖可以使用連通矩陣和頂點特征矩陣表示。我們將特征矩陣的每一行特征減去特征，用減后的特征去編碼和之間的關系，減后得到的特征矩陣表示為。因此，GCN-E的轉換可表示為：

其中、和的定義和等式(2)相同。是GCN-E第層的參數。基於第層的輸出嵌入，我們使用一個全連接層獲得中每個頂點的連通值。連通值反映了兩個頂點之間的關系，我們使用表示和的預測連通值

Training and Inference. 給定有着類標簽的訓練集，對於頂點，其鄰居和有着相同的類，那么其連通值設置為1，否則設置為0：

我們旨在預測反映了兩個頂點是否屬於同一個類的連通值。與GCN-V的等式(5)相似，我們也使用vertex-wise的MSE損失來訓練GCN-E：

為了加速訓練和推理過程，我們只將GCN-E應用於有着大估計置信度的一小部分頂點，因為它們可能比小置信度的頂點影響更多的后繼頂點。我們用ρ表示使用的頂點比例。對於其他頂點，它們簡單地連接到候選集中它們的M個最近鄰，這表明它們連接到top-M個有着最高相似度和較高的置信度的鄰居。M = 1得到基於樹的划分策略，而M > 1產生有向無環圖作為集群。經驗結果表明，M = 1， ρ = 10%已經可以帶來相當可觀的性能增益(見第4.3.2節)。

Complexity Analysis. 連通性估計器的概念與[35]相似，在[35]中，它們評估子圖上的每個頂點連接到中心頂點的可能性。雖然[35]的復雜度與N是線性相關的，但是在每個頂點的鄰域上應用GCN會導致過多的計算需求。提出的GCN-E有兩個使其更有效的關鍵設計:(1)我們只預測候選集中的連接，這一工作可能涉及到每個頂點較少的鄰居，並且不需要手動選擇每一跳的跳數和鄰居數。(2)有了估計的頂點置信度，我們可以集中在一小部分高置信度的頂點上。有了這兩種重要的設計，我們的速度比[35]快了一個數量級。

4. Experiments

4.1. Experimental Settings

Face clustering. MS-Celeb-1M[11]是一個由100K個身份組成的大型人臉識別數據集，每個身份大約有100張人臉圖像。我們采用來自ArcFace[7]的廣泛使用的注釋，生成一個可靠的子集，其包含來自86K個類的580萬幅圖像。我們隨機將清理后的數據集分成10個有着幾乎相同數量的身份的數據集parts。每個part包含8.6K個身份和大約580K個圖像。我們隨機選擇1個part作為已標注數據，其他9個部分作為未標注數據。

Fashion clustering. 我們也評估了我們的方法在人臉圖像以外的數據集的有效性。我們在DeepFashion[21]的一個大子集上進行測試，即In-shop Clothes Retrieval，這是一個長尾數據集。特別地是，我們在原始split中混合了訓練特征和測試特征，從3997個類別中隨機抽取25752幅圖像進行訓練，並從3984個類別中抽取26960幅圖像進行測試。注意，時尚聚類也被視為一個開放集問題，訓練類別和測試類別之間沒有重疊。

Face recognition. 我們在MegaFace[17]上評估人臉識別模型，這是人臉識別的最大基准。它包括一個來自FaceScrub[25]的帶有3,530張圖片的probe集和一個包含1百萬張圖片的gallery集。

Metrics. 我們評估了聚類和人臉識別的性能。人臉聚類通常用兩個指標來評價[29,35,38]，即pairwise F-score和BCubed F-score[2]。前者強調大的聚類，因為pairs的數量隨聚類大小增長呈二次增長，而后者則根據聚類大小為聚類加權。這兩個指標都是精度和召回率的調和平均值，分別稱為F_P和F_B。利用MegaFace中的人臉識別基准對人臉識別進行了評價。我們在MegaFace中采用top-1的識別命中率，即對1M gallery圖像中的top-1圖像進行排序，計算top-1命中率。

Implementation Details. 為了構建KNN連通圖，在MS1M設置K = 80，在Deep-Fashion設置K = 5。由於GCN-V在一個有數百萬個頂點的圖上進行操作，我們只使用1層的GCN來減少計算成本。對於GCN-E，它在一個不超過K個頂點的鄰域上運行，因此我們使用4層的GCN來增加它的表達能力。對於這兩個數據集，momentum SGD的起始學習率為0.1，權重衰減為1e⁻⁵。為了避免沒有正確的連接鄰居的情況，我們設置一個閾值τ來切斷相似度較小的邊。所有設置中，τ設置為0.8

4.2. Method Comparison

4.2.1 Face Clustering

我們將該方法與一系列聚類基線進行了比較。下面簡要介紹這些方法。
(1) K-means[22]，常用的聚類算法。對於N≥1.74M，我們使用mini-batch K-means，產生了類似的結果，但運行時間明顯縮短。

(2) HAC[30]，該方法以自底向上的方式，根據一定的條件分層合並緊密的集群。
(3) DBSCAN[9]根據設計的密度准則提取集群，並將稀疏背景作為噪聲。

(4) MeanShift[6]精確指出包含一組收斂到同一局部最優點的集群。

(5) Spectral[24]根據相似矩陣的光譜將數據划分為連通分量。
(6) ARO[1]使用近似最近鄰搜索和改進的距離度量進行聚類。
(7) CDP[39]，一種基於圖的聚類算法，它利用了更魯棒的pairwise關系。

(8) L-GCN[35]，一種最新的監督方法，采用GCNs來利用圖上下文信息進行pairwise預測。
(9) LTC[38]，另一個最近的監督方法，制定聚類為檢測和分割pipeline。
(10) Ours(V)，我們提出的方法是在整個圖上應用GCN-V，通過將每個頂點與其候選集中最近鄰相連接來獲得集群。
(11) Ours(V + E)，提出的方法是在GCN-V的基礎上使用GCN-E來估計連通性，通過將每個頂點連接到候選集中連通度最高的鄰居來獲得集群。

Results 對於所有方法，我們都對相應的超參數進行調優，並報告最佳結果。表1和表2的結果表明:(1)給定集群的ground-truth數目，K-means獲得較高的F-score。然而，集群數量對性能的影響很大，因此在集群數量未知的情況下很難使用。(2) HAC不要求集群的數量，但迭代合並過程計算量大。即使使用快速實現[23]，當N為5.21M時，生成結果也需要將近900小時。(3)雖然DBSCAN非常高效，但它假設不同集群之間的密度是相似的，這可能是當擴展到大設置時性能嚴重下降的原因。(4) MeanShift對fashion聚類效果較好，但收斂時間較長。(5)Spectral clustering的性能也很好，但求解特征值分解需要大量的計算和內存，限制了其應用。(6) ARO的性能取決於鄰居的數量。在時間預算合理的情況下，MS1M的性能不如其他方法。(7) CDP非常高效，在不同尺度的不同數據集上獲得了較高的F-score。為了公平比較，我們將與CDP的單型號版本進行比較。(8) L-GCN持續超過CDP，但比CDP慢一個數量級。(9) LTC作為最近的一種有監督的聚類人臉方法，在大規模聚類中顯示出其優勢。然而，依賴於迭代proposal策略的性能提高伴隨着較大的計算成本。(10)所提出的GCN-V算法在性能上始終優於之前的方法。雖然GCN-V的訓練集只包含580K的圖像，但它能很好地泛化到5.21M的未標記數據，證明了它在捕捉頂點重要特征方面的有效性。此外，由於GCN-V同時預測所有頂點的置信度，它比以前的監督方法快了一個數量級。(11)將GCN-E應用於20%的帶有最高估計置信度的頂點。它帶來了進一步的性能提高，特別是當應用到DeepFashion時。這個具有挑戰性的數據集包含有噪聲的鄰域，因此需要更仔細地選擇連接性。

Runtime Analysis 我們使用ES-2640 v3 CPU和TitanXP測量不同方法的運行時間。對於MS-Celeb-1M，我們測量N = 584K時的運行時間。除了K-means和HAC之外，所有的比較方法都依賴於KNN圖。針對算法本身的運行時間，我們使用1個GPU和16個CPU加速KNN[16]的搜索，將尋找80個最近鄰的時間從34分鍾縮短到101秒。對於所有的監督方法，我們分析了它們的推理時間。如表1所示，我們提出的GCN-V比L-GCN和LTC快一個數量級。GCN-E需要更多的時間來預測候選集中的連通性，但它仍然比L-GCN和LTC的效率高幾倍。圖3更好地說明了准確性和效率之間的權衡。對於LTC和mini-batch K-means，我們分別控制proposals的數量和batch大小，以產生不同的運行時間和精度。在實際應用中，我們可以利用LTC中的super vertex思想來進一步加速GCN-V，然后並行GCN-E來同時估計不同頂點的連通性。

4.2.2 Face Recognition

遵循[39,38]的pipeline，我們應用訓練過的聚類模型將偽標簽分配給未標記的數據，並利用它們來增強人臉識別模型。如第4.1節所介紹的，我們將數據集分成10個split，隨機選擇1個split得到ground-truth標簽，記為。人臉識別實驗包括4個步驟:(1)使用訓練人臉識別模型;(2)在上使用提取人臉特征，使用從提取的特征和對應的標簽訓練聚類模型;(3)使用為未標記的圖像分配偽標簽;(4)使用和帶有偽標簽的未標記數據，以多任務方式訓練最終的人臉識別模型。需要注意的是，我們使用來訓練初始的人臉識別模型和人臉聚類模型。

與以往假設連續獲得未標記數據，並在9個分片上分別進行9次聚類的工作[39,38]不同，我們直接對5.21M未標記數據進行聚類，更具有實際意義和挑戰性。通過假設所有未標記的數據都有ground-truth標簽來訓練上界（upper bound）。如圖4所示，所有這三種方法都受益於未標記數據的增加。由於聚類性能的提高，我們的方法始終優於以往的方法，並將人臉識別模型在MegaFace上的性能從58.21提高到77.88。

4.3. Ablation Study

為了研究一些重要的設計選擇，我們選擇MS-Celeb-1M(584K)和DeepFashion進行消融研究。

4.3.1 Confidence Estimator

Design of vertex confidence. 我們探索不同的置信度設計。由於置信度與第2節中描述的“密度”概念有關，我們首先采用兩種廣泛使用的無監督密度作為置信度[9,3,26]。給定半徑，第一個定義為頂點數，第二個定義為邊權值之和，記為和，如表3所示。注意，對於這些無監督定義，置信度是直接計算的，不需要學習過程。另一方面，我們可以基於ground-truth標簽定義各種監督置信度。定義為與具有相同標簽的所有頂點的平均相似度。定義為與中心的相似性，中心的相似性計算為具有相同標簽的所有頂點的平均特征。定義為等式(1)。表示使用top嵌入去重建圖。為了比較不同的置信度設計，我們采用相同的連通性估計器，設ρ = 0和M = 1。在這個意義上，連通性估計器無需學習直接選擇候選集中的最近鄰。

如表3所示，兩種無監督密度定義的性能相對較低。高數據密度意味着集群的高概率，這種假設不一定適用於所有情況。此外，計算密度選擇的半徑對性能很敏感。表3顯示，在不需要手動設置半徑的情況下，監督置信度的性能優於非監督置信度。在這三種定義中，的性能優於和。由於是在鄰域上定義的，所以GCN的學習可能比和更容易，而和是針對同一個聚類中的所有樣本定義的。在實際應用中，類似於顯著性檢測[10,13]中的顯著性map融合，我們可以對不同置信度的輸出進行集成，以獲得更好的性能。

Transformed embeddings. 對和的比較表明，利用轉換后的特征重建連通圖可以使兩種數據集的性能都得到提高。這種思想與Dynamic圖[34]的概念相同，在每個圖卷積層之后重建KNN圖。然而，在一個有數百萬個頂點的大型圖上，每一層構造KNN圖將導致令人生畏的計算預算。實驗結果表明，只有采用top嵌入來重建圖像，才能得到較好的結果。

4.3.2 Connectivity Estimator

The Influence of ρ. 我們將ρ從0變化到1，步長為0.1。如圖5所示，只關注10%的高置信度頂點可以帶來相當大的性能提升，同時只增加很少的計算成本。隨着ρ的增加，更多的頂點受益於GCN-E的預測，從而F_P增加。當將GCN-E應用到所有的頂點時，會有輕微的下降，因為置信度不高的頂點之間的連接通常非常復雜，可能很難找到通用的學習模式。

The Influence of M. 下表中，M =−1表示應用GCN-E時不使用候選集。它包括置信度低的鄰居，從而增加了學習的難度，導致性能下降。

當M = 1時，每個頂點都連接到候選集中與其連接度最高的鄰居。當M > 1時，不確定的頂點可能會連接到兩個不同的集群。雖然它增加了已獲得的集群的召回，但它可能嚴重損害精度。

5. Conclusion

本文提出了一種新的監督人臉聚類框架，消除了啟發式步驟和大量子圖的需求。該方法顯著提高了大規模人臉聚類的精度和效率。實驗結果表明，該方法在比訓練集大10倍的測試集上有很好的泛化能力。在fashion數據集上的實驗證明了它在人臉數據集之外的應用潛力。在未來，需要一個端到端的可學習聚類框架來充分釋放監督聚類的力量。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。