[轉]半監督學習


0 引言

機器學習(Machine Learning)是人工智能的核心研究領域,是智能信息處理的重要途徑。監督學習(Supervised Learning)是機器學習中研究最多、應用最廣泛的一種學習途徑。在傳統的監督學習中,學習系統通過大量的有標記的訓練樣本(Labeled Examples)進行學習,建立模型用於預測未知樣本的標記(Label)。在此,標記對應於示例的輸出,用於表征待學習的目標概念。

隨着數據收集和存儲技術的發展,收集大量缺少標記的數據已相當容易,而為這些數據提供標記則相對困難,因為數據標記過程往往需要消耗大量人力物力,甚至必須依賴於少數領域專家來完成。例如在計算機輔助診斷中,可以方便地從醫院日常體檢中獲取訓練數據,但是讓醫學權威專家為所有的體檢結果提供診斷往往是不現實的。事實上,在實際應用中,大量未標記數據和少量有標記數據並存的情況比比皆是。然而,由於能用於監督學習的有標記樣本較少,通常難以學得泛化能力強的模型。因此,如何利用大量未標記數據來幫助提升在少量有標記數據上學得模型的泛化能力,成了當前機器學習領域倍受關注的重要問題之一。

目前,利用未標記數據學習有三大主流技術,分別是半監督學習(Semi-Supervised Learning)、直推學習(Transductive Learning)以及主動學習(Active Learning)。與直推學習僅關注在未標記數據上的預測性能以及主動學習依賴於人工干預不同,半監督學習可以自動地對未標記數據加以利用,學習在整個數據分布上具有強泛化能力的模型。整個學習過程中無需人工干預,完全基於學習系統自身實現對未標記數據的利用。半監督學習憑借其自身的特點以及廣大的應用需求,在過去10年中已發展稱為機器學習中一大研究熱點。鑒於此,本文對半監督學習的研究進展進行簡要介紹。

1 未標記數據的作用

缺少概念標記的未標記數據為何能幫助學習器學習目標概念?圖1中給出了一個簡單的例子,其中“+”代表正類樣本,“-”代表反類樣本,“.”未標記樣本。此時,需要來預測“*”這個樣本的標記。若僅利用有標記樣本進行學習(如圖1(a)所示),很自然地會將該樣本判為正類樣本;但若考慮大量未標記樣本(如圖1(b)所示),則可以發現待預測樣本和有標記的反類樣本同屬於一個簇,有理由相信一個簇中的樣本性質應該相似,因此將該樣本預測為反類樣本更加合理。從此例可以看出,未標記數據提供的分布信息能夠幫助學習。

圖1 未標記數據的作用

最早對未標記數據效用的理論解釋出現於1997年Miller et al­1的工作中。他們假設訓練數據符合某個由M個成分組成的混合分布,並根據最大后驗概率規則導出了一個可分解為P(y|mj,x)和P(mj|x)乘積的最優分類函數,其中mj代表第j個混合成分。學習目標則是在訓練數據上估計上述兩項概率。由於第二項不依賴於樣本的標記y,利用大量的未標記數據可以幫助提升對P(mj|x)估計精度。此后,Zhang et al[2] 對半監督學習的進一步分析指出,如果一個參數化模型能夠分解成 的形式,那么未標記數據的作用體現於它們能夠幫助更好地估計模型參數,從而提高模型性能。

事實上,若要未標記數據在學習過程中發揮效用,就必須建立未標記數據分布和預測模型之間的聯系。在生成模型中,這種聯系通過數據生成過程而體現,即模型決定未標記數據該如何分布。對於通用學習器,往往需要借助某些假設來建立預測模型和未標記數據之間的聯系。在半監督學習中,聚類假設(Cluster Assumption)和流形假設(Manifold Assumption)是兩種最常用來建立聯系的假設。聚類假設要求預測模型對相同聚類的數據應該給出相同的類標記,通常適用於分類問題;流形假設要求預測模型對相似輸入數據應該給出相似的輸出,除分類問題外還適用於回歸、排序等任務,在某些情況下可以看成聚類假設的一種自然推廣。現有多樹的半監督學習方法大都直接或間接地體現了上述假設。

2 半監督學習方法

目前公認的半監督學習研究工作起源於1994年Shahshahani et al[3] 在衛星遙感圖像分析中對未標記圖像的利用。之后,半監督學習得到了廣泛關注,很多半監督學習方法相繼提出。這些方法大致可分為四類,分別是基於生成式模型(Generative Model Based)的半監督學習、基於低密度划分(Low Density Separation Based)的半監督學習、基於圖(Graph Based)的半監督學習以及基於不一致性(Disagreement Based)的半監督學習。

2.1 基於生成式模型的半監督學習

該類方法通常是把未標記樣本屬於每個類別的概率看成一組缺失參數,然后采用EM(Expectation Maximization)算法對生成式模型的參數進行極大似然估計。不同方法的區別在於選擇了不同的生成式模型作為基分類器,例如混合高斯模型(Mixture of Gaussians)[3]、混合專家模型(Mixture of Expert)[1]、朴素貝葉斯(Nave Bayes)[4]。雖然基於生成模式的半監督學習方法簡單、直觀,並且在訓練樣本,特別是有標記樣本極少時能夠取得比判別式模式更好的性能,但是當模式假設與數據分布不一致時,使用大量的未標記數據來估計模型參數反而會降低學得模型的泛化能力[5]。由於尋找合適的生成式模型來為數據建模需要大量領域知識,這使得基於生成式模型的半監督學習在實際問題中的應用有限。

2.2 基於低密度划分的半監督學習

這類方法要求決策邊界盡量通過數據較為稀疏區域,以免把聚類中數據稠密的點分到決策邊界兩側。基於該思想,Joachims[6]提出了TSVM算法(如圖2所示,其中實線為TSVM的分類邊界、虛線為不考慮未標記數據的SVM分類邊界)。在訓練過程中,TSVM算法首先利用有標記的數據訓練一個SVM並估計未標記數據的標記,然后基於最大化間隔准則,迭代式地交換分類邊界兩側樣本的標記,使得間隔最大化,並以此更新當前預測模型,從而實現在盡量正確分類有標記數據的同時,將決策邊界“推”向數據分布相對稀疏的區域。然而,TSVM的損失函數非凸,學習過程會因此陷入局部極小點,從而影響泛化能力。為此,多種TSVM的變體方法被提出,以緩解非凸損失函數對優化過程造成的影響,典型方法包括確定性退火[7]、CCCP直接優化[8]等。此外低密度划分思想還被用於TSVM以外的半監督學習方法的設計,例如通過使用熵對半監督學習進行正則化,迫使學習到的分類邊界避開數據稠密區域[9]

圖2 TSVM算法示意圖

2.3 基於圖的半監督學習

該類方法利用有標記和未標記數據構建數據圖,並且基於圖上的鄰接關系將標記從有標記的數據向未標記數據點傳播(如圖3所示,其中淺灰色和黑色結點分別為不同類別的有標記樣本、空心結點為未標記樣本)。根據標記傳播方式可將基於圖的半監督學習方法分為兩大類,一類方法通過定義滿足某種性質的標記傳播方式來實現顯式標記傳播,例如基於高斯隨機場與諧函數的標記傳播[10]、基於全局和局部一致性的標記傳播[11]等;另一類方法則是通過定義在圖上的正則化項實現隱式標記傳播,例如通過定義流形正則化項,強制預測函數對圖中的近鄰給出相似輸出,從而將標記從有標記樣本隱式地傳播至未標記樣本[12]。事實上,標記傳播方法對學習性能的影響遠比不上數據圖構建方法對學習性能的影響大。如果數據圖的性質與數據內在規律相背離,無論采用何種標記傳播方法,都難以獲得滿意的學習結果。然而,要構建反映數據內在關系的數據圖,往往需要依賴大量領域知識。所幸,在某些情況下,仍可根據數據性質進行處理,以獲得魯棒性更高的數據圖,例如當數據圖不滿足度量性時,可以根據圖譜將非度量圖分解成多個度量圖,分別進行標記傳播,從而可克服非度量圖對標記傳播造成的負面影響[13]。基於圖的半監督學習有良好的數學基礎,但是,由於學習算法的時間復雜度大都為O(n3),故難以滿足對大規模未標記數據進行半監督學習的應用需求。

圖3 標記傳播示意圖

2.4 基於不一致性的半監督學習

該類方法需要同時協調多個有差異性的學習器來實現對未標記數據的利用。在迭代式學習過程中,當多個學習器在某個未標記數據上存在不一致的預測結果時,若部分學習器的置信度明顯高於其他學習器,那么低置信度學習器將利用將利用高置信度學習器給出的標記進行學習;若所有學習器的預測置信度都比較低,可通過與外界交互獲取其標記信息。在此,未標記數據實際上為多個學習器提供了“信息交互平台”。基於不一致性的半監督學習起源於1998年Blum et al[14]提出的協同訓練算法(如圖4所示)。該算法假設數據具有兩個充分冗余視圖(Sufficient and Redundant Views),即從每個視圖足以學得一個泛化能力強的學習器,且給定類別標記后視圖之間相互獨立,並通過不同視圖上的學習器相互標記樣本的方式進行半監督學習。他們證明當上述假設條件滿足時,協同訓練可利用未標記數據提升學習器性能。然而,在大多數實際應用中,數據均不具有充分冗余視圖。為此,研究者在半監督學習中利用單視圖下多個有差異性的學習器代替多個視圖下的學習器,典型方法包括基於特殊基學習器的協同訓練方法[15]、協同三分類器的半監督學習方法tri-training[16]、協同多分類器集成的半監督學習方法Co-Forest[17]、基於一致性(Consistency)置信度估計的半監督回歸方法COREG[18]等。最近,Wang et al[19]從理論上揭示了協同訓練奏效的關鍵是學習器之間需要存在足夠的不一致性(Disagreement),從而為上述采用多個有差異性學習器代替充分冗余視圖的方式提供了理論依據。文獻[20]給出了基於不一致性半監督學習方法的綜述。

圖4 協同訓練示意圖

上述四大類半監督學習方法已成功用於解決自然語言處理、互聯網搜索、軟件工程、生物信息學、醫學等多個領域,並取得了良好的效果。例如:Li et al[21]基於不一致性框架設計了半監督排序方法SSRank,有效利用未標記數據提升了互聯網搜索的性能;Xu et al[22]將Co-Forest算法用於蛋白質亞細胞定位,在利用未標記數據學習后,預測性能比現有監督學習方法提高了10%。

3 結束語

半監督學習是利用未標記學習的重要技術,它可以在無需外界干預的情況下自動利用大量未標記數據提升學習器在整個數據分布上的泛化能力。本文簡要介紹了半監督學習中未標記數據的作用、半監督學習方法的分類及代表算法。

雖然半監督學習技術已取得了長足的發展,然而仍有一些重要問題有待進一步研究。例如,至少需要多少標記樣本才能實現有效的半監督學習?在特殊情況下,這一問題已得到初步回答[23],但在一般情況下半監督學習對標記樣本的最低需求量仍是一個開問題。另一個值得研究的問題是,半監督學習在何種情況下奏效?以往研究表明,使用半監督學習可能造成學習器泛化能力顯著下降。因此,設計出“安全”的半監督學習方法,使得學習器性能不會因利用未標記數據而降低,將有助於半監督學習解決更多的真實問題。此外,將半監督學習用於解決更多實際問題仍將繼續成為半監督學習研究重要組成部分。

參考文獻:

[1]Miller D J, Uyar H S. A mixture of experts classifier with learning based on both labelled and unlabelled data[C]//Mozer M, Jordan M I, Petsche T, et al. Advances in Neural Information Processing Systems 9. Cambridge: MIT Press, 1997: 571-577.

[2]Zhang T, Oles F J. A probability analysis on the value of unlabeled data for classification problems[C]//Proceedings of 17th International Conference on Machine Learning. Stanford: [s. n. ], 2000: 1191-1198.

[3]Shahshahani B, Landgrebe D. The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon[J]. IEEE Transactions on Geoscience and Remote Sensing, 1994, 32(5): 1087-1095.

[4]Nigam K, McCallum A K, Thrun S, et al. Text classification from labeled and unlabeled documents using EM[J]. Machine Learning, 2000, 39(2-3): 103-134.

[5]Cozman F G, Cohen I. Unlabeled data can degrade classification performance of generative classifier[C]//Proceedings of the 15th International Conference of the Florida Artificial Intelligence Research Socioty. Pensacola: [s. n. ], 2002: 327-331.

[6]Joachims T. Transductive inference for text classification using support vector machines[C]//Proceedings of the 16th International Conference on Machine Learning. Bled, Slovenia: [s. n. ], 1999: 200-209.

[7]Sindhwani V, Keerthi S S, Chapelle O. Deterministic annealing for semi-supervised kernel machines[C]// Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh: [s. n. ], 2006: 123-130.

[8]Collobert R, Sinz F, Weston J, et al. Large scale transductive SVMs[J]. Journal of Machine Learning Research, 2006, 7(8): 1687-1712.

[9]Grandvalet Y, Bengio Y. Semi-supervised learning by entropy minimization[C]//Saul L K, Weiss Y, Bottou L, et al. Advances in Neural Information Processing Systems 17. Cambridge: MIT Press, 2005: 529-536.

[10]Zhu X, Ghahramani Z, Lafferty J. Semi-supervised learning using Gaussian fields and harmonic functions[C]// Proceedings of the 20th International Conference on Machine Learning. Washington: [s. n. ], 2003: 912–919.

[11]Zhou D, Bousquet O, Lal T N, et al. Learning with local and global consistency[C]//Thrun S, Saul L, Schlkopf B, et al. Advances in Neural Information Processing Systems 16. Cambridge: MIT Press, 2004: 321-328.

[12]Belkin M, Niyogi P, Sindwani V. Manifold regularization: a geometric framework for learning from labeled and unlabeled examples[J]. Journal of Machine Learning Research, 2006, 7(11): 2399-2434.

[13]Zhang Yin, Zhou Zhihua. Non-metric label propagation[C]//Proceedings of the 21st International Joint Conference on Artificial Intelligence. Pasadena: [s. n. ], 2009: 1357-1362.

[14]Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the 11th Annual Conference on Computational Learning Theory. Madison: [s. n. ], 1998: 92-100.

[15]Goldman S, Zhou Y. Enhancing supervised learning with unlabeled data[C]//Proceedings of the 17th International Conference on Machine Learning. San Francisco: [s. n. ], 2000: 327-334.

[16]Zhou Zhihua, Li Ming. Tri-training: exploiting unlabeled data using three classifiers[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(11): 1529-1541.

[17]Li Ming, Zhou Zhihua. Improve computer-aided diagnosis with machine learning techniques using undiagnosed samples[J]. IEEE Transactions on Systems, Man and Cybernetics-Part A: Systems and Humans, 2007, 37(6): 1088-1098.

[18]Zhou Zhihua, Li Ming. Semi-supervised regression with co-training style algorithms[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(11): 1479-1493.

[19]Wang Wei, Zhou Zhihua. Analyzing co-raining style algorithms[C]// Proceedings of the 18th European Conference on Machine Learning. Warsaw: [s. n. ], 2007: 454-465.

[20]Zhou Zhihua, Li Ming. Semi-supervised learning by disagreement[J]. Knowledge and Information Systems, 2010, 24(3): 415-439.

[21]Li Ming, Li Hang, Zhou Zhihua. Semi-supervised document retrieval[J]. Information Processing & Management, 2009, 45(3): 341-355.

[22]Xu Qian, Hu Derek Hao, Xue Hong, et al. Semi-supervised protein subcellular localization[J]. BMC Bioinformatics, 2009, 10(S1): S47.

[23]Zhou Zhihua, Zhan Dechuan, Yang Qiang. Semi-supervised learning with very few labeled training examples[C]//Proceedings of the 22nd AAAI Conference on Artificial Intelligence. Vancouver: [s. n. ], 2007: 675-680.

 

 

 

原文地址:

http://caai.cn/contents/421/3585.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM