目錄
2 基於懲罰不相似方法的缺失值聚類 (Machine Learning, 2018)
3 基於最優運輸的深度分布保留(Distribution-preserving)非完整數據聚類 (arXiv, 2021)
面向非完整數據的聚類,目前分為兩種框架,分別是非完整多視圖聚類和非完整單視圖聚類。然而,兩階段的聚類模型,容易忽略填補對聚類過程的負面影響。同時,有文章表明非完整數據聚類,其核心是盡量緩解由缺失值導致的聚類中心偏移或者不確定性的問題。
本期分享關注單視圖的非完整數據聚類,即原始數據含缺失,對含缺失的原始數據執行聚類操作。
下面分析一下關於致力於聚類的填補一點思考:
傳統的先填補后聚類的想法,在標簽缺乏的情況下,只能從已有的完整數據分布中進行學習,從而協助填補,但是此時填補對於聚類的好壞無法評判。聚類是無監督學習,此時填補是不帶標簽的填補,即無法評估填補的好壞。
兩階段的方式,並不能保證對下游任務是最優的。此外,填補的好壞在聚類任務中是無法評估的,但是其終極目的還是為下游任務提供服務。在實際包含缺失且標簽缺乏的序列數據中,填補的好壞評判是一個偽命題。因此,此時采用一階段,通過聚類來指導填補,同時填補更加有利於聚類。
真實數據的填補,由於沒有標簽,所以就沒有判別的准則。但是已有的文章說有已有的完整數據,來指導缺失的數據進行填補,這樣的思路,在實際的實驗過程中,是否可行?是否需要用相似度來衡量填補的好於壞呢?
最后放一下關於三種不同缺失模式的解釋,此處解釋的原始來源於我對接的大三本科同學的周報內容:
缺失值分為兩種:存在但尚未被觀測到,或根本不存在。
1)MCAR,完全隨機缺失:
定義:某個變量是否缺失與它自身的值無關,也與其他任何變量的值無關。例如,由於測量設備出故障導致某些值缺失。
特點:MCAR機制方便我們處理數據,但往往不切實際。
2)MAR,隨機缺失:
定義:某個變量是否缺失與它自身的值無關,但和其他變量已觀測到的值有關。如:人們是否透露收入可能與性別、教育程度、職業等因素有關系。如果這些因素都觀測到了,而且盡管收入缺失的比例在不同性別、教育程度、職業的人群之間有差異,但是在每一類人群內收入是否缺失與收入本身的值無關,那么收入就是隨機缺失的。
特點:MAR比MCAR更具一般性,更符合實際。現代缺失數據方法通常從MAR假設開始。
3)MNAR(NMAR),非隨機缺失:
定義:某個變量是否缺失不僅和其他變量的值有關,還與它自身的值有關。如:在控制了性別、教育程度、職業等已觀測因素之后,如果收入是否缺失還依賴於收入本身的值,那么收入就是非隨機缺失的。
特點:三種缺失機制中最復雜的一種。處理策略是找到有關缺失原因的更多數據,或者用假設分析來查看結果在各種情況下的敏感性。
1基於模糊C均值的非完整數據聚類 (TSMC, 2001)
代碼:暫無
1.1動機
現實生活場景中,由於數據采集和存儲不當,導致數據經常是缺失的。模糊C均值(FCM)算法是一種有效的聚類算法,然而不能直接用於非完整數據的聚類。
1.2貢獻
本文針對傳統的FCM不能用於缺失數據聚類的問題,提出了四種面向非完整數據聚類的策略,其中三種屬於FCM算法的修改版本,並且這四種方法都提供了聚類中心位置的估計值和數據的模糊分區。
本文方法的目標是將數據集划分為模糊的簇,並給出其聚類簇中心的估計值。具體的示例圖如下:
上圖1左邊表示完整的數據,對應下方兩個圓圈的簇中心。圖1右邊表示缺失后的數據,而實際可能會預估出四個不同的簇中心位置。上述示例說明了不完整數據數據所面臨的一個固有的困難問題。
(1)整體數據策略(Whole Data Strategy, WDS)
如果不完整數據的比例很小,那么可以簡單地刪除所有不完整數據,對剩余的完整數據應用FCM。本文將其稱為整體數據策略(WDS)。上述簡單策略實施的前提是,完整可觀察到的數據占比大於75%。
本策略可能對估計簇中心起到有效作用,然而其沒有利用對應列的完整信息,從而造成了信息缺失。本文將該策略簡稱為WDSFCM。
(2)部分距離策略(Partial Distance Strtegy)
本策略是由Dixon[1]推薦使用所有可用的(即非缺失的)特征值來計算部分(歐幾里得)距離,然后用所使用組分比例的倒數來縮放這個量。本文將其稱為部分距離策略(partial distance strategy, PDS)。具體估計公式如下:
本文將上述策略稱為PDSFCM。采用上述策略可以直接為包含缺失數據計算到具體簇中心的隸屬度,或者說軟標簽。
(3)最優補全策略 (Optimal Completion Strtegy, OCS)
第三種不完整數據的FCM聚類方法是基於我們所說的最優補全策略(OCS)。在這種方法中,我們視缺失的組件為我們優化的額外變量,以獲得FCM函數的最小可能值。也就是說,我們的策略是通過使給定可用數據的可能值最小的方式來補全數據集缺失的部分。對FCM的這種修改,在這里稱為OCSFCM。
具體的算法步驟如下:
我的個人見解:采用模糊的簇中心,以及當前的數據隸屬度來完成對應數據缺失部位的補全,並且使得最終的簇中心估計的損失最小。本策略其中的距離計算采用的是策略2中PDSFCM算法公式。
(4)最近原型策略(Nearest Prototype Strategy, NPS)
最后一種方法使用最近原型策略(NPS),可以描述為OCSFCM的一個簡單修改。將OCSFCM算法中的步驟5:
修改為如下:
在一個不完整的數據與兩個或多個原型的距離相等的罕見情況下,在定義時必須使用打破平局的規則。雖然NPSFCM在所有數值試驗中都是終止的,但我們還沒有從理論上確定該過程必須收斂。
1.3實驗分析
本文的實驗主要對比WDS, PDS,OCS和NPS結合FCM執行非完整數據距離的效果。其中,WDS適用缺失率低可直接忽略數據,PDS直接使用缺失的數據執行距離計算,即不需要采用填補手段,而OCS和NPS均是對缺失部分執行了填補,而NPS則是采用了PDS含缺失數據計算距離的思路,對OCS算法最后一步的填補進行了置換。
基於后四列的誤差,OCS方法的原型估計精度至少與其他方法相同。最簡單的策略,WDS,提供了高達20%的良好測試錯誤。盡管PDS、OCS和NPS的總體准確率和誤分類誤差在最壞的情況下(75%)非常相似,但PDS方法幾乎總是比其他三種方法需要更少的迭代。
上圖是作者仿照IrIs數據集做的人工合成缺失數據實驗,最終距離成為兩個簇,剛好和文章的圖1和圖2對應。
另外,是距離效果相差不大的情況下,即當數據結構清晰時,所有四種方法都相當平等,在這種情況下最好的選擇可能是選擇 WDS 或 PDS,它們都比 OCS 和 NPS 終止得更快。
WDS能夠以最快的速度收斂。同時,就分類錯誤而言,NPS 和 OCS 是整體表現最好的。PDS 和 WDS 在終端原型精度方面表現良好。
1.4我的思考
本文的策略2提出的PDS策略,直接采用含缺失數據計算距離執行聚類的思想,能夠在有效確保原始數據信息不丟失的情況下,只能聚類,並且還不會引入填補的誤差,這個誤差有好也有壞。這樣的策略,可以反映一個問題:即非完整數據的聚類並不一定需要補全,關於該策略后續看看有沒有最新的文章能夠分析清楚該問題。
2 基於懲罰不相似方法的缺失值聚類 (Machine Learning, 2018)
2.1 動機
許多真實世界的聚類問題都被不完整的數據所困擾,這些數據的特征是缺少某些或所有數據實例的特性。如果不進行填補或邊緣化預處理,傳統的聚類方法是不能直接應用於這類數據。
零填補和均值填補,其目的均是為分類或者聚類服務,但是這樣的填補是屬於兩階段,割裂了與分類或者聚類的聯系。另一方面呢,目前已有的填補方法追求填補的好於壞,這是建立在有完整數據的假設前提下,這在實際真實缺失的填補是無意義的,或者說是一個假命題。
假命題的解釋:如果缺失位置對應的其它數據只能擁有很少或者有效的真實分布,那么在這樣的情況下執行填補是無意義的。那么在這樣的情況下,簡單地執行零填補或者均值填補,或者對當前所在列缺失較大的數據全部舍棄處理,直接對包含有效信息的完整未缺失或者缺失程度較小的數據執行聚類可能會更好。
另外,一般把原始完整數據進行缺失處理后,原始的數據分布可能就會發生變化,即其有較大可能變成了一種不同的分布,此時在這樣的分布上進行填補,其核心目的是為了聚類更好,而不是為了填補更好。如果是為了填補更好,按這個問題就是研究填補了,而不是聚類。此外,填補也是不可避免會為聚類帶來偏差和誤差。
當缺失位置的特征數據依賴於觀察到的特征時,此時填補的好很大可能是有利於聚類,反之則可能沒有幫助,甚至會導致聚類效果變差。
缺失值進行忽略或者邊緣化不能應用於有大量缺失值的數據,因為它可能會導致大量信息的丟失。因此,需要用復雜的方法來填補數據中的空缺,從而可以隨后使用傳統的學習方法。
然而,這些技術中的大多數都假定缺失模式為MCAR或MAR,因為這允許使用更簡單的缺失模型。這樣簡單的模型不太可能在MNAR情況下表現良好,因為缺失模式也包含信息。由於MNAR缺失模式的數據也包含重要信息, 因此必須設計其他方法來處理不完整的數據。此外,先填補再聚類往往會導致數據中引入噪聲和不確定性
2.2 貢獻
在本文中,我們利用一種懲罰性的不相似測度來克服這一缺陷,我們稱之為基於特征加權懲罰的不相似測度不同(FWPD)。利用FWPD測度,我們對傳統的k-means聚類算法和標准的分層聚類算法進行了改進,使其直接適用於特征缺失的數據集。 (即無需填補,直接采用包含缺失的原始數據,且不會丟失原始數據信息的情況下執行聚類操作)
我們對這些新技術進行了時間復雜度分析,並進行了詳細的理論分析,表明新的基於FWPD的k-means算法在有限的迭代次數內收斂到局部最優。我們還提出了一種詳細的模擬隨機和特征依賴缺失的方法。
由於公共觀測子空間中的距離不能反映未觀測子空間中的距離,PDS得到了不恰當的距離估計值。如前所述,這是PDS(2001年TSMC的部分距離相似)方法的主要缺點。由於兩個數據實例之間的觀察距離本質上是它們之間歐幾里德距離的一個下界(如果它們被完全觀察到的話),在這個下界上加一個適當的懲罰可以得到實際距離的一個合理的近似。本處提到的基於懲罰項的部分距離相似策略,和PDS的區別在於加了一個簡單的懲罰項目,簡單示例如下:
不同缺失填補處理策略,和原始真實完整數據直接的距離差異如下:
特征權重懲罰項的定義如下:
依據上述的特征權重懲罰項,結合PDS距離,和定義的相關聯的超參數alpha,得到的基於特征權重懲罰項的距離度量公式如下:
結合上述提到的FWPD距離相似度量策略,本文作者將其集合K-means算法執行距離,即可以直接對非完整缺失且無需填補操作的距離,具體步驟如下:
其中z表示簇中心,u表示當前數據屬於哪個簇,最后依據u和原始數據x進行加權平均求取最終的簇中心。
2.3實驗分析
本文實驗所用數據集如下:
上述未使用真實缺失數據集,去拿不都是UCI或者JGD上面的真實完整數據集。
下述實驗結果用於表明K-means-FWPD與多種先填補后聚類方法模型的對比,分別在四種不同缺失機制下的實驗結果:
上述實驗結果表明,本文提出的無需填補的K-means-FWPD方法的聚類效果要明顯優於先填補后聚類的方法。另外,采用KNNI執行填補然后聚類的效果要大概率優於零填補、均值填補和SVDI填補方法,說明設計好的填補方法大概率也是有利於聚類。
2.4 我的思考
本文最大的亮點在於深入探討分類不填補和相對於填補聚類的優勢,並且分析了三種不同缺失機制下的聚類效果,並且進行了分析。本文的實驗內容比較詳盡,可以作為直接采用原始缺失數據執行聚類,本文的方法可以重點考慮作為采用填補結合聚類模型的重點baseline方法。在非完整數據聚類的研究中,后續可以考慮如何采用深度學習模型對含缺失的數據直接執行聚類,而無需填補的操作。
3 基於最優運輸的深度分布保留(Distribution-preserving)非完整數據聚類 (arXiv, 2021)
代碼:暫無
3.1 動機
聚類是計算機視覺和機器學習領域的一項基本任務。雖然已有各種方法被提出,但現有方法在處理不完整的高維數據(這在現實應用中很常見)時性能會急劇下降。
3.2 貢獻
為了解決這一問題,我們提出了一種新的深度不完全聚類方法,即DDIC-OT (deep Distribution- preserving incomplete clustering with Optimal Transport)。為避免現有方法中全觀測樣本較少而導致樣本利用率不足的問題,我們提出用最優傳輸度量分布距離來進行重建評估,而不是傳統的像素級損失函數。此外,引入潛在特征的聚類損失,使嵌入規則化,具有更強的識別能力。因此,該網絡對缺失特征具有更強的魯棒性,而將聚類和樣本imputation結合起來的統一框架使這兩個程序能夠更好地相互協商服務。
本文模型的框架如下:
OT的分布Loss定義如下:
本文的聚類Loss沿用了ICML2016年的DEC中的KL散度Loss, 其聯合優化思路沿用了IJCAI2017年的IDEC模型和框架,具體如下:
3.3 實驗分析
本文兩階段中的深度填補方法策略中的GAIN, VAEAC和MIWAE方法都是MDIOT填補方法(ICML, 2020)文章中的重點對比方法,即其填補的效果都要比MDIOT差。本文采用了六種高維數據集,具體的缺失處理機制在文章中沒有說明,具體的實驗效果如下:
消解實驗分析如下:
模型的初始化填補值的分析如下,分別采用零值和均值填補處理:
3.4 我的思考
本文最大的貢獻在於將IDEC 2017年的IJCAI文章中的重構loss置換為了OT分布Loss,然后對於原始高維缺失數據采用Encoder-Decoder模型進行embedding的學習,並且采用OT分布Loss進行樣本分布上的重構,而以往的完整數據是基於原始圖片像素級別的重構。本文模型的實質是沒有對原始相似缺失部分進行填補處理,而是對學習的特征表示進行Decoder后采用OT loss執行樣本分布上面的重構。
然而,對於OT loss實現樣本分布層面的重構后,就能大幅提高最終的聚類效果:我的猜想,即原始未缺失部分的數據就具有較強的聚類判別性能,而采用簡單的零值或者均值填補后,很大可能會引入填補的誤差,即使得聚類性能變壞的誤差。而且本文采用的高維數據集都是IDEC文章中和DEC2016ICML文章中模型經過精細化調參能夠學習良好Embedding執行聚類的數據集。對於本文模型的魯棒性,如果嘗試采用MNAR和MNR缺失機制參數的高維數據集,或者采用CIFAR10等三維像素數據集,采用MCAR缺失處理,然后使用本文的模型執行聚類的效果可能並不能取得理想的結果。
最后,對於本文的實驗,其中最大的一個質疑就是:作者沒有提供其在真實高維缺失數據集上的聚類效果,本文所使用的數據集都是圖像或者文本領域最基准的baseline數據集,其缺失處理都是人工制造的缺失,相關數據集的聚類可能會受到模型的encoder影響較大,如果換一個真實的非完整數據集執行聚類分析,模型的魯棒性需要等待進一步驗證和分析。此外,本文對於缺失的機制(PS:目前公認有三種,分別是MCAR, MNAR和MNR)沒有探討和分析,這也是本文一個亟需解決的問題。
4 基於Split神經網絡含缺失特征的層次聚類的魯棒性探討 (AAAI, 2021)
本文基於一篇2018年直接采用缺失數據訓練神經網絡的工作,提出了一種層次聚類的分割神經網絡,能夠直接對非完整數據(只需要執行簡單的均值填補)進行建模學習,從而提高最終的分類效果(或者說能夠達到較好的分類效果,且只需要簡單的填補處理)。
本文的標題中雖然又說是做聚類,但是其實際的任務是做分類,另外本文一個AAAI的學生版本,總共只有兩頁,不過本文在后續可以考慮作為含缺失數據聚類的深度學習模型作探討和研究。
5 如何采用Rubin規則衡量面向缺失數據聚類的性能? (arXiv, 2020)
代碼:暫無
本文表明多重填補是處理缺失數據的常用方法,但是如何評估非完整數據聚類的不穩定仍然是一個問題。針對上述問題,本文提出采用bootstrap理論集合多重填補解釋了不完整數據聚類的不穩定性問題。